DLLM-VSR: Primo LLM Diffusivo per il Riconoscimento Vocale Visivo
I ricercatori propongono DLLM-VSR, il primo framework basato su Diffusion Large Language Model (DLLM) per il Visual Speech Recognition (VSR). A differenza dei tradizionali decodificatori autoregressivi da sinistra a destra, DLLM-VSR utilizza un denoising mascherato iterativo con decodifica a ordine flessibile, consentendo di impegnare precocemente i token ad alta confidenza e di usarli come contesto bidirezionale per raffinare quelli ambigui. Una strategia di addestramento a due stadi con denoising mascherato separa l'allineamento visivo-testuale dalla modellazione della lunghezza. Lo studio identifica un divario prestazionale con la decodifica a lunghezza oracle, suggerendo che ridurre l'incertezza sulla lunghezza target può migliorare il VSR basato su DLLM. L'articolo è disponibile su arXiv con ID 2605.28456.
Fatti principali
- DLLM-VSR è il primo framework VSR basato su Diffusion Large Language Model.
- Utilizza il denoising mascherato iterativo invece della decodifica autoregressiva da sinistra a destra.
- Lo smascheramento basato sulla confidenza impegna precocemente le posizioni ad alta confidenza.
- L'addestramento a due stadi separa l'allineamento dei contenuti dalla modellazione della lunghezza.
- La decodifica a lunghezza oracle rivela un divario prestazionale dovuto all'incertezza sulla lunghezza target.
- L'articolo è su arXiv con ID 2605.28456.
Entità
Istituzioni
- arXiv