Efficient-DLM: Convertire Modelli Autoregressivi in Modelli Linguistici Diffusivi Veloci
Un nuovo studio su arXiv (2512.14067) introduce Efficient-DLM, un metodo per convertire modelli linguistici autoregressivi (AR) preaddestrati in efficienti modelli linguistici diffusivi (dLM) che generano testo in parallelo mantenendo l'accuratezza del compito. I ricercatori hanno identificato limitazioni nei metodi esistenti di conversione AR-dLM, in particolare nei pattern di attenzione e negli obiettivi. Propongono uno schema di preaddestramento continuo con un pattern di attenzione a blocchi che mantiene relazioni causali tra blocchi ma consente attenzione bidirezionale all'interno dei blocchi, preservando le distribuzioni dei pesi AR preaddestrati. Questo approccio mira a colmare il divario di efficienza di apprendimento tra dLM e modelli AR quando addestrati da zero.
Fatti principali
- Articolo arXiv 2512.14067 intitolato 'Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed'
- Lo studio si concentra sulla conversione di modelli AR preaddestrati in dLM efficienti
- La conversione mira a consentire la generazione non autoregressiva parallela mantenendo l'accuratezza del modello AR
- I ricercatori hanno identificato limitazioni nei pattern di attenzione e negli obiettivi dei metodi AR-dLM esistenti
- Proposto schema di preaddestramento continuo con pattern di attenzione a blocchi
- L'attenzione a blocchi rimane causale tra blocchi ma bidirezionale all'interno dei blocchi
- Mantenere le distribuzioni dei pesi AR preaddestrati è fondamentale per una conversione efficace
- Il metodo affronta il divario di efficienza di apprendimento tra dLM e modelli AR addestrati da zero
Entità
Istituzioni
- arXiv