Nuova ricerca sull'IA propone il framework R²-dLLM per ridurre la ridondanza nei modelli linguistici di diffusione di grandi dimensioni

ai-technology · 2026-04-22

Un articolo di ricerca intitolato "R²-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction" è stato pubblicato su arXiv, identificato come arXiv:2604.18995v1. Questo studio affronta la significativa latenza di inferenza che ostacola l'implementazione efficace dei Diffusion Large Language Models (dLLM), che rappresentano un'alternativa valida alla generazione autoregressiva facilitando le previsioni parallele dei token. Gli autori hanno identificato che gran parte di questa inefficienza deriva dalla ridondanza ripetitiva nella fase di decodifica, inclusa la ridondanza spaziale dai cluster di confidenza e dall'ambiguità posizionale, insieme alla ridondanza temporale dal re-masking delle previsioni già stabilizzate. Per affrontare questi problemi, introducono R²-dLLM, un framework completo mirato a minimizzare la ridondanza di decodifica sia durante l'inferenza che l'addestramento. Per l'inferenza, offre regole di decodifica senza addestramento per consolidare la confidenza locale e le previsioni dei token, finalizzando i token stabili per eliminare passaggi di decodifica non necessari. Inoltre, suggeriscono un metodo di fine-tuning supervisionato consapevole della ridondanza per rafforzare le capacità di riduzione della ridondanza del modello durante l'addestramento. Questo articolo rientra nella categoria di annunci incrociati su arXiv.

Fatti principali

L'articolo è intitolato "R²-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction".
È stato pubblicato su arXiv con l'identificatore arXiv:2604.18995v1.
I Diffusion Large Language Models (dLLM) consentono la previsione parallela dei token come alternativa alla generazione autoregressiva.
La decodifica pratica dei dLLM soffre di elevata latenza di inferenza, limitandone il dispiegamento.
L'inefficienza è attribuita alla ridondanza spaziale dai cluster di confidenza e dall'ambiguità posizionale, e alla ridondanza temporale dal re-masking delle previsioni stabilizzate.
Il framework R²-dLLM proposto riduce la ridondanza di decodifica sia dalle prospettive dell'inferenza che dell'addestramento.
Al momento dell'inferenza, utilizza regole di decodifica senza addestramento per aggregare la confidenza locale e le previsioni dei token e finalizzare i token stabili.
Viene anche proposto un approccio di fine-tuning supervisionato consapevole della ridondanza per migliorare la riduzione della ridondanza durante l'addestramento.

Nuova ricerca sull'IA propone il framework R²-dLLM per ridurre la ridondanza nei modelli linguistici di diffusione di grandi dimensioni

Fatti principali

Entità

Istituzioni

Fonti