ARTFEED — Contemporary Art Intelligence

Il campionamento temporale a campana accelera i modelli di diffusione mascherati per il linguaggio

ai-technology · 2026-05-14

Uno studio recente pubblicato su arXiv (2605.13026) rivela che il principale fattore che ostacola la velocità di addestramento dei modelli di diffusione mascherati (MDM) nella modellazione del linguaggio è il bias di località inerente al linguaggio, dove le informazioni per predire un token si trovano in gran parte in prossimità. Per affrontare questo problema, i ricercatori suggeriscono una soluzione efficace—il campionamento temporale a campana—che può aumentare la velocità di addestramento degli MDM fino a 4× sul benchmark One Billion Word (LM1B) senza compromettere le prestazioni finali. Questo progresso aiuta a superare uno svantaggio significativo degli MDM rispetto ai modelli autoregressivi (ARM).

Fatti principali

  • I modelli di diffusione mascherati (MDM) sono un'alternativa promettente ai modelli autoregressivi (ARM) per la modellazione del linguaggio.
  • Gli MDM apprendono sostanzialmente più lentamente degli ARM.
  • Il principale fattore che rallenta l'addestramento degli MDM è il bias di località del linguaggio.
  • Il campionamento temporale a campana è proposto come strategia di addestramento.
  • Gli MDM con la nuova ricetta raggiungono la stessa NLL di validazione fino a ~4× più velocemente su LM1B.
  • Lo studio è pubblicato su arXiv con ID 2605.13026.

Entità

Istituzioni

  • arXiv

Fonti