ARTFEED — Contemporary Art Intelligence

Degenerazione del testo: un costo nascosto nell'inferenza dei LLM

other · 2026-05-22

Un nuovo studio rivela che la degenerazione del testo—un ciclo auto-rinforzante in cui i modelli linguistici autoregressivi ripetono i token indefinitamente—può aumentare i costi di inferenza di oltre il 40% anche quando colpisce meno del 3% delle richieste. Il fenomeno, formalizzato per la prima volta da Holtzman et al. nel 2020, è strutturale: deriva dall'obiettivo di training di massima verosimiglianza e non può essere completamente mitigato dalle sole strategie di decodifica. In esperimenti con il modello Qwen2.5-VL-7B-Instruct su compiti OCR, le richieste degenerate hanno causato un aumento del 42,47% del tempo totale di esecuzione e hanno incrementato la durata media delle richieste sane fino al 71%. Gli autori propongono l'ottimizzazione delle preferenze dirette (DPO) con coppie degenerate-rifiutate come soluzione strutturale, riducendo i tassi di degenerazione del 37-87% tra le famiglie di modelli. Sostengono che il tasso di degenerazione dovrebbe essere una metrica di primo livello nei benchmark, poiché le valutazioni standard trascurano questa modalità di fallimento e il suo impatto operativo.

Fatti principali

  • La degenerazione del testo è una modalità di fallimento auto-rinforzante dei modelli linguistici autoregressivi.
  • Meno del 3% delle richieste può consumare quasi la metà del tempo totale di esecuzione.
  • Le richieste degenerate aumentano il tempo totale di inferenza del 42,47% in un esperimento.
  • La durata delle richieste sane è aumentata del 15-71% quando le richieste degenerate venivano eseguite in parallelo.
  • Il fenomeno è stato formalizzato per la prima volta da Holtzman et al. nel 2020.
  • DPO con coppie degenerate-rifiutate ha ridotto la degenerazione del 37-87% tra le famiglie di modelli.
  • Il modello specializzato più piccolo (3B) ha raggiunto il tasso di degenerazione più basso (0,20%).
  • I benchmark standard non tracciano il tasso di degenerazione come metrica.

Entità

Istituzioni

  • HuggingFace
  • DharmaOCR
  • Qwen
  • Nanonets
  • arXiv

Fonti