BitCal-TTS: Scaling a Tempo di Test con Calibrazione dei Bit per Modelli di Ragionamento Quantizzati

other · 2026-05-09

Un nuovo metodo, BitCal-TTS, affronta il problema della confidenza mal calibrata nei modelli di ragionamento quantizzati di grandi dimensioni durante l'allocazione del calcolo a tempo di test. La quantizzazione post-addestramento riduce la memoria e la latenza ma distorce i segnali di confidenza, causando un arresto precoce in cui i modelli smettono di ragionare prematuramente. BitCal-TTS combina proxy di incertezza online, riscalamento della confidenza condizionato ai bit e un orizzonte di conferma per output strutturati come GSM8K. Non richiede fine-tuning e si integra con l'inferenza standard.

Fatti principali

BitCal-TTS è un controller runtime leggero per modelli di ragionamento quantizzati.
La quantizzazione post-addestramento può distorcere i segnali di confidenza nell'allocazione adattiva del calcolo a tempo di test.
La confidenza mal calibrata porta a un dannoso arresto precoce nell'inferenza greedy a 4 bit.
BitCal-TTS utilizza proxy online per l'incertezza a livello di token e la stabilità della traccia di ragionamento.
Applica un riscalamento della confidenza condizionato ai bit che è conservativo a bassa precisione.
Include un orizzonte di conferma post-marker sensibile ai bit progettato per output in stile GSM8K.
Non è richiesto il fine-tuning del modello base.
Il metodo si integra con pipeline di inferenza standard.

Entità

—

Fonti

arXiv cs.AI — 2026-05-09