DLLM-VSR: Primo LLM Diffusivo per il Riconoscimento Vocale Visivo

ai-technology · 2026-05-28

I ricercatori propongono DLLM-VSR, il primo framework basato su Diffusion Large Language Model (DLLM) per il Visual Speech Recognition (VSR). A differenza dei tradizionali decodificatori autoregressivi da sinistra a destra, DLLM-VSR utilizza un denoising mascherato iterativo con decodifica a ordine flessibile, consentendo di impegnare precocemente i token ad alta confidenza e di usarli come contesto bidirezionale per raffinare quelli ambigui. Una strategia di addestramento a due stadi con denoising mascherato separa l'allineamento visivo-testuale dalla modellazione della lunghezza. Lo studio identifica un divario prestazionale con la decodifica a lunghezza oracle, suggerendo che ridurre l'incertezza sulla lunghezza target può migliorare il VSR basato su DLLM. L'articolo è disponibile su arXiv con ID 2605.28456.

Fatti principali

DLLM-VSR è il primo framework VSR basato su Diffusion Large Language Model.
Utilizza il denoising mascherato iterativo invece della decodifica autoregressiva da sinistra a destra.
Lo smascheramento basato sulla confidenza impegna precocemente le posizioni ad alta confidenza.
L'addestramento a due stadi separa l'allineamento dei contenuti dalla modellazione della lunghezza.
La decodifica a lunghezza oracle rivela un divario prestazionale dovuto all'incertezza sulla lunghezza target.
L'articolo è su arXiv con ID 2605.28456.

DLLM-VSR: Primo LLM Diffusivo per il Riconoscimento Vocale Visivo

Fatti principali

Entità

Istituzioni

Fonti