ARTFEED — Contemporary Art Intelligence

BitCal-TTS: Scaling a Tempo di Test con Calibrazione dei Bit per Modelli di Ragionamento Quantizzati

other · 2026-05-09

Un nuovo metodo, BitCal-TTS, affronta il problema della confidenza mal calibrata nei modelli di ragionamento quantizzati di grandi dimensioni durante l'allocazione del calcolo a tempo di test. La quantizzazione post-addestramento riduce la memoria e la latenza ma distorce i segnali di confidenza, causando un arresto precoce in cui i modelli smettono di ragionare prematuramente. BitCal-TTS combina proxy di incertezza online, riscalamento della confidenza condizionato ai bit e un orizzonte di conferma per output strutturati come GSM8K. Non richiede fine-tuning e si integra con l'inferenza standard.

Fatti principali

  • BitCal-TTS è un controller runtime leggero per modelli di ragionamento quantizzati.
  • La quantizzazione post-addestramento può distorcere i segnali di confidenza nell'allocazione adattiva del calcolo a tempo di test.
  • La confidenza mal calibrata porta a un dannoso arresto precoce nell'inferenza greedy a 4 bit.
  • BitCal-TTS utilizza proxy online per l'incertezza a livello di token e la stabilità della traccia di ragionamento.
  • Applica un riscalamento della confidenza condizionato ai bit che è conservativo a bassa precisione.
  • Include un orizzonte di conferma post-marker sensibile ai bit progettato per output in stile GSM8K.
  • Non è richiesto il fine-tuning del modello base.
  • Il metodo si integra con pipeline di inferenza standard.

Entità

Fonti