Degenerazione del testo: un costo nascosto nell'inferenza dei LLM

other · 2026-05-22

Un nuovo studio rivela che la degenerazione del testo—un ciclo auto-rinforzante in cui i modelli linguistici autoregressivi ripetono i token indefinitamente—può aumentare i costi di inferenza di oltre il 40% anche quando colpisce meno del 3% delle richieste. Il fenomeno, formalizzato per la prima volta da Holtzman et al. nel 2020, è strutturale: deriva dall'obiettivo di training di massima verosimiglianza e non può essere completamente mitigato dalle sole strategie di decodifica. In esperimenti con il modello Qwen2.5-VL-7B-Instruct su compiti OCR, le richieste degenerate hanno causato un aumento del 42,47% del tempo totale di esecuzione e hanno incrementato la durata media delle richieste sane fino al 71%. Gli autori propongono l'ottimizzazione delle preferenze dirette (DPO) con coppie degenerate-rifiutate come soluzione strutturale, riducendo i tassi di degenerazione del 37-87% tra le famiglie di modelli. Sostengono che il tasso di degenerazione dovrebbe essere una metrica di primo livello nei benchmark, poiché le valutazioni standard trascurano questa modalità di fallimento e il suo impatto operativo.

Fatti principali

La degenerazione del testo è una modalità di fallimento auto-rinforzante dei modelli linguistici autoregressivi.
Meno del 3% delle richieste può consumare quasi la metà del tempo totale di esecuzione.
Le richieste degenerate aumentano il tempo totale di inferenza del 42,47% in un esperimento.
La durata delle richieste sane è aumentata del 15-71% quando le richieste degenerate venivano eseguite in parallelo.
Il fenomeno è stato formalizzato per la prima volta da Holtzman et al. nel 2020.
DPO con coppie degenerate-rifiutate ha ridotto la degenerazione del 37-87% tra le famiglie di modelli.
Il modello specializzato più piccolo (3B) ha raggiunto il tasso di degenerazione più basso (0,20%).
I benchmark standard non tracciano il tasso di degenerazione come metrica.

Entità

Istituzioni

HuggingFace
DharmaOCR
Qwen
Nanonets
arXiv

Fonti

Hugging Face Blog — 2026-05-22