La Struttura dell'Attenzione Visiva Rivela le Allucinazioni nei Modelli Linguistici Multimodali di Grandi Dimensioni
Una nuova tecnica è stata scoperta dai ricercatori per identificare allucinazioni visive nei modelli linguistici multimodali di grandi dimensioni (MLLM) attraverso l'esame dei pattern ad alta frequenza nell'attenzione visiva. I risultati, dettagliati in uno studio su arXiv, indicano che l'energia laplaciana a livello di strato può rivelare le origini delle preferenze allucinate e i momenti in cui le risposte accurate riappaiono brevemente. Introducono LaSCD (Laplacian-Spectral Contrastive Decoding), un metodo di decodifica che non richiede addestramento, che utilizza l'energia laplaciana per selezionare strati rilevanti e riformula matematicamente i logit del token successivo. Questo metodo affronta il problema che le allucinazioni possono verificarsi anche quando i modelli allocano un'attenzione significativa ai token dell'immagine ma comunque deviano verso risposte errate. Il documento è accessibile su arXiv:2605.11559.
Fatti principali
- I modelli linguistici multimodali di grandi dimensioni (MLLM) sono vulnerabili alle allucinazioni visive.
- L'allucinazione può verificarsi anche quando i modelli assegnano un'attenzione sostanziale ai token dell'immagine.
- La struttura ad alta frequenza dell'attenzione visiva, misurata dall'energia laplaciana a livello di strato, rivela gli strati allucinatori.
- LaSCD (Laplacian-Spectral Contrastive Decoding) è una strategia di decodifica senza addestramento.
- LaSCD seleziona strati informativi tramite l'energia laplaciana e rimappa i logit del token successivo in forma chiusa.
- Il documento è pubblicato su arXiv con identificatore 2605.11559.
- Lo studio si concentra sul ragionamento visivo e sul question answering basato su immagini.
- Il metodo può rilevare dove le risposte corrette si ripristinano temporaneamente.
Entità
Istituzioni
- arXiv