La Struttura dell'Attenzione Visiva Rivela le Allucinazioni nei Modelli Linguistici Multimodali di Grandi Dimensioni

ai-technology · 2026-05-13

Una nuova tecnica è stata scoperta dai ricercatori per identificare allucinazioni visive nei modelli linguistici multimodali di grandi dimensioni (MLLM) attraverso l'esame dei pattern ad alta frequenza nell'attenzione visiva. I risultati, dettagliati in uno studio su arXiv, indicano che l'energia laplaciana a livello di strato può rivelare le origini delle preferenze allucinate e i momenti in cui le risposte accurate riappaiono brevemente. Introducono LaSCD (Laplacian-Spectral Contrastive Decoding), un metodo di decodifica che non richiede addestramento, che utilizza l'energia laplaciana per selezionare strati rilevanti e riformula matematicamente i logit del token successivo. Questo metodo affronta il problema che le allucinazioni possono verificarsi anche quando i modelli allocano un'attenzione significativa ai token dell'immagine ma comunque deviano verso risposte errate. Il documento è accessibile su arXiv:2605.11559.

Fatti principali

I modelli linguistici multimodali di grandi dimensioni (MLLM) sono vulnerabili alle allucinazioni visive.
L'allucinazione può verificarsi anche quando i modelli assegnano un'attenzione sostanziale ai token dell'immagine.
La struttura ad alta frequenza dell'attenzione visiva, misurata dall'energia laplaciana a livello di strato, rivela gli strati allucinatori.
LaSCD (Laplacian-Spectral Contrastive Decoding) è una strategia di decodifica senza addestramento.
LaSCD seleziona strati informativi tramite l'energia laplaciana e rimappa i logit del token successivo in forma chiusa.
Il documento è pubblicato su arXiv con identificatore 2605.11559.
Lo studio si concentra sul ragionamento visivo e sul question answering basato su immagini.
Il metodo può rilevare dove le risposte corrette si ripristinano temporaneamente.

La Struttura dell'Attenzione Visiva Rivela le Allucinazioni nei Modelli Linguistici Multimodali di Grandi Dimensioni

Fatti principali

Entità

Istituzioni

Fonti