FoCore: Decodifica a Contrasto Automatico per LLM Diffusivi
Una nuova strategia di decodifica chiamata Focus on the Core (FoCore) è stata proposta per i modelli linguistici di grandi dimensioni basati su diffusione (DLM). Il metodo, descritto nel preprint arXiv 2605.01373, affronta il limite delle attuali strategie di decodifica che mostrano una preferenza locale e trascurano la densità eterogenea delle informazioni. I ricercatori hanno identificato che i token ad alta densità informativa (HD), che convergono prima dei token circostanti, migliorano significativamente la qualità dell'output quando vengono condizionati esplicitamente. FoCore è un approccio senza training che utilizza i token HD in modo auto-contrastivo, rimascherandoli temporaneamente come campioni negativi per guidare la generazione. Viene introdotta anche una variante accelerata, FoCore_Accel. Il lavoro evidenzia il vantaggio distintivo dei DLM nella modellazione del contesto globale attraverso il denoising iterativo.
Fatti principali
- FoCore è una strategia di decodifica senza training per modelli linguistici diffusivi di grandi dimensioni.
- Sfrutta i token ad alta densità informativa (HD) in modo auto-contrastivo.
- I token HD mostrano una tendenza alla decodifica anticipata, convergendo prima dei token circostanti.
- Il condizionamento esplicito sui token HD migliora sostanzialmente la qualità dell'output.
- Le attuali strategie di decodifica non sfruttano la modellazione del contesto globale dei DLM.
- FoCore rimaschera temporaneamente i token HD come campioni negativi.
- Viene proposta anche una versione accelerata chiamata FoCore_Accel.
- La ricerca è pubblicata su arXiv con ID 2605.01373.
Entità
Istituzioni
- arXiv