Modulo di Memoria Visiva Persistente Migliora la Percezione Visiva degli LVLM
Un articolo di ricerca introduce la Memoria Visiva Persistente (PVM), un modulo leggero che affronta il problema della 'Diluizione del Segnale Visivo' nei modelli autoregressivi Large Vision-Language (LVLM). In questi modelli, l'attenzione visiva decade all'aumentare della lunghezza delle sequenze di testo generate. PVM è integrato come ramo parallelo accanto alla Feed-Forward Network (FFN), creando un percorso di recupero indipendente dalla distanza che fornisce direttamente gli embedding visivi. Questo intervento strutturale mitiga la soppressione del segnale durante la generazione profonda. Esperimenti sui modelli Qwen3-VL mostrano miglioramenti consistenti nell'accuratezza con un overhead di parametri minimo. L'articolo è disponibile su arXiv con identificativo 2605.00814.
Fatti principali
- PVM è un modulo leggero e apprendibile per LVLM.
- Affronta la 'Diluizione del Segnale Visivo' dove l'attenzione visiva decade con la lunghezza della sequenza generata.
- PVM è integrato come ramo parallelo accanto alla Feed-Forward Network (FFN).
- Stabilisce un percorso di recupero indipendente dalla distanza per gli embedding visivi diretti.
- Gli esperimenti sono stati condotti sui modelli Qwen3-VL.
- PVM porta miglioramenti notevoli con un overhead di parametri trascurabile.
- L'articolo è pubblicato su arXiv con ID 2605.00814.
- Il modulo garantisce una percezione visiva sostenuta e su richiesta.
Entità
Istituzioni
- arXiv