Degenerazione del testo: un costo nascosto nell'inferenza dei LLM
Un nuovo studio rivela che la degenerazione del testo—un ciclo auto-rinforzante in cui i modelli linguistici autoregressivi ripetono i token indefinitamente—può aumentare i costi di inferenza di oltre il 40% anche quando colpisce meno del 3% delle richieste. Il fenomeno, formalizzato per la prima volta da Holtzman et al. nel 2020, è strutturale: deriva dall'obiettivo di training di massima verosimiglianza e non può essere completamente mitigato dalle sole strategie di decodifica. In esperimenti con il modello Qwen2.5-VL-7B-Instruct su compiti OCR, le richieste degenerate hanno causato un aumento del 42,47% del tempo totale di esecuzione e hanno incrementato la durata media delle richieste sane fino al 71%. Gli autori propongono l'ottimizzazione delle preferenze dirette (DPO) con coppie degenerate-rifiutate come soluzione strutturale, riducendo i tassi di degenerazione del 37-87% tra le famiglie di modelli. Sostengono che il tasso di degenerazione dovrebbe essere una metrica di primo livello nei benchmark, poiché le valutazioni standard trascurano questa modalità di fallimento e il suo impatto operativo.
Fatti principali
- La degenerazione del testo è una modalità di fallimento auto-rinforzante dei modelli linguistici autoregressivi.
- Meno del 3% delle richieste può consumare quasi la metà del tempo totale di esecuzione.
- Le richieste degenerate aumentano il tempo totale di inferenza del 42,47% in un esperimento.
- La durata delle richieste sane è aumentata del 15-71% quando le richieste degenerate venivano eseguite in parallelo.
- Il fenomeno è stato formalizzato per la prima volta da Holtzman et al. nel 2020.
- DPO con coppie degenerate-rifiutate ha ridotto la degenerazione del 37-87% tra le famiglie di modelli.
- Il modello specializzato più piccolo (3B) ha raggiunto il tasso di degenerazione più basso (0,20%).
- I benchmark standard non tracciano il tasso di degenerazione come metrica.
Entità
Istituzioni
- HuggingFace
- DharmaOCR
- Qwen
- Nanonets
- arXiv