Il campionamento temporale a campana accelera i modelli di diffusione mascherati per il linguaggio
Uno studio recente pubblicato su arXiv (2605.13026) rivela che il principale fattore che ostacola la velocità di addestramento dei modelli di diffusione mascherati (MDM) nella modellazione del linguaggio è il bias di località inerente al linguaggio, dove le informazioni per predire un token si trovano in gran parte in prossimità. Per affrontare questo problema, i ricercatori suggeriscono una soluzione efficace—il campionamento temporale a campana—che può aumentare la velocità di addestramento degli MDM fino a 4× sul benchmark One Billion Word (LM1B) senza compromettere le prestazioni finali. Questo progresso aiuta a superare uno svantaggio significativo degli MDM rispetto ai modelli autoregressivi (ARM).
Fatti principali
- I modelli di diffusione mascherati (MDM) sono un'alternativa promettente ai modelli autoregressivi (ARM) per la modellazione del linguaggio.
- Gli MDM apprendono sostanzialmente più lentamente degli ARM.
- Il principale fattore che rallenta l'addestramento degli MDM è il bias di località del linguaggio.
- Il campionamento temporale a campana è proposto come strategia di addestramento.
- Gli MDM con la nuova ricetta raggiungono la stessa NLL di validazione fino a ~4× più velocemente su LM1B.
- Lo studio è pubblicato su arXiv con ID 2605.13026.
Entità
Istituzioni
- arXiv