Efficient-DLM: Convertire Modelli Autoregressivi in Modelli Linguistici Diffusivi Veloci

publication · 2026-05-01

Un nuovo studio su arXiv (2512.14067) introduce Efficient-DLM, un metodo per convertire modelli linguistici autoregressivi (AR) preaddestrati in efficienti modelli linguistici diffusivi (dLM) che generano testo in parallelo mantenendo l'accuratezza del compito. I ricercatori hanno identificato limitazioni nei metodi esistenti di conversione AR-dLM, in particolare nei pattern di attenzione e negli obiettivi. Propongono uno schema di preaddestramento continuo con un pattern di attenzione a blocchi che mantiene relazioni causali tra blocchi ma consente attenzione bidirezionale all'interno dei blocchi, preservando le distribuzioni dei pesi AR preaddestrati. Questo approccio mira a colmare il divario di efficienza di apprendimento tra dLM e modelli AR quando addestrati da zero.

Fatti principali

Articolo arXiv 2512.14067 intitolato 'Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed'
Lo studio si concentra sulla conversione di modelli AR preaddestrati in dLM efficienti
La conversione mira a consentire la generazione non autoregressiva parallela mantenendo l'accuratezza del modello AR
I ricercatori hanno identificato limitazioni nei pattern di attenzione e negli obiettivi dei metodi AR-dLM esistenti
Proposto schema di preaddestramento continuo con pattern di attenzione a blocchi
L'attenzione a blocchi rimane causale tra blocchi ma bidirezionale all'interno dei blocchi
Mantenere le distribuzioni dei pesi AR preaddestrati è fondamentale per una conversione efficace
Il metodo affronta il divario di efficienza di apprendimento tra dLM e modelli AR addestrati da zero

Efficient-DLM: Convertire Modelli Autoregressivi in Modelli Linguistici Diffusivi Veloci

Fatti principali

Entità

Istituzioni

Fonti