I LLM Diffusivi Superano i Modelli Autoregressivi nell'Iniezione di Conoscenza Senza Parafrasi
Un nuovo studio da arXiv (2510.09885) confronta i modelli linguistici di grandi dimensioni diffusivi (dLLM) e quelli autoregressivi (arLLM) in compiti di fine-tuning della conoscenza. I ricercatori hanno scoperto che i dLLM richiedono meno campioni di addestramento e raggiungono una perdita inferiore nel pre-training, essendo anche più resistenti alla maledizione dell'inversione. In esperimenti controllati, i dLLM hanno raggiunto un'elevata accuratezza nel question answering senza l'uso di parafrasi, mentre gli arLLM dipendevano dalle parafrasi per generalizzare la conoscenza in capacità di QA. Lo studio indaga se l'obiettivo di demasking da solo possa indurre questo vantaggio nei dLLM, indipendentemente dal loro paradigma di denoising diffusivo. I risultati suggeriscono che i dLLM possono apprendere nuove conoscenze fattuali in modo più efficiente degli arLLM, riducendo potenzialmente i costi computazionali per aggiornare i LLM con informazioni in evoluzione.
Fatti principali
- Lo studio confronta LLM diffusivi e LLM autoregressivi nel fine-tuning della conoscenza
- I dLLM richiedono meno campioni di addestramento per una perdita di pre-training inferiore
- I dLLM sono più resistenti alla maledizione dell'inversione
- Gli arLLM dipendono dall'augmentazione con parafrasi per la generalizzazione nel QA
- I dLLM raggiungono un'elevata accuratezza nel QA senza parafrasi
- La ricerca indaga il ruolo dell'obiettivo di demasking nel vantaggio dei dLLM
- Pubblicato su arXiv con ID 2510.09885
- Potenziale per ridurre i costi computazionali degli aggiornamenti di conoscenza dei LLM
Entità
Istituzioni
- arXiv