BitCal-TTS: Scaling a Tempo di Test con Calibrazione dei Bit per Modelli di Ragionamento Quantizzati
Un nuovo metodo, BitCal-TTS, affronta il problema della confidenza mal calibrata nei modelli di ragionamento quantizzati di grandi dimensioni durante l'allocazione del calcolo a tempo di test. La quantizzazione post-addestramento riduce la memoria e la latenza ma distorce i segnali di confidenza, causando un arresto precoce in cui i modelli smettono di ragionare prematuramente. BitCal-TTS combina proxy di incertezza online, riscalamento della confidenza condizionato ai bit e un orizzonte di conferma per output strutturati come GSM8K. Non richiede fine-tuning e si integra con l'inferenza standard.
Fatti principali
- BitCal-TTS è un controller runtime leggero per modelli di ragionamento quantizzati.
- La quantizzazione post-addestramento può distorcere i segnali di confidenza nell'allocazione adattiva del calcolo a tempo di test.
- La confidenza mal calibrata porta a un dannoso arresto precoce nell'inferenza greedy a 4 bit.
- BitCal-TTS utilizza proxy online per l'incertezza a livello di token e la stabilità della traccia di ragionamento.
- Applica un riscalamento della confidenza condizionato ai bit che è conservativo a bassa precisione.
- Include un orizzonte di conferma post-marker sensibile ai bit progettato per output in stile GSM8K.
- Non è richiesto il fine-tuning del modello base.
- Il metodo si integra con pipeline di inferenza standard.
Entità
—