ARTFEED — Contemporary Art Intelligence

La Struttura dell'Attenzione Visiva Rivela le Allucinazioni nei Modelli Linguistici Multimodali di Grandi Dimensioni

ai-technology · 2026-05-13

Una nuova tecnica è stata scoperta dai ricercatori per identificare allucinazioni visive nei modelli linguistici multimodali di grandi dimensioni (MLLM) attraverso l'esame dei pattern ad alta frequenza nell'attenzione visiva. I risultati, dettagliati in uno studio su arXiv, indicano che l'energia laplaciana a livello di strato può rivelare le origini delle preferenze allucinate e i momenti in cui le risposte accurate riappaiono brevemente. Introducono LaSCD (Laplacian-Spectral Contrastive Decoding), un metodo di decodifica che non richiede addestramento, che utilizza l'energia laplaciana per selezionare strati rilevanti e riformula matematicamente i logit del token successivo. Questo metodo affronta il problema che le allucinazioni possono verificarsi anche quando i modelli allocano un'attenzione significativa ai token dell'immagine ma comunque deviano verso risposte errate. Il documento è accessibile su arXiv:2605.11559.

Fatti principali

  • I modelli linguistici multimodali di grandi dimensioni (MLLM) sono vulnerabili alle allucinazioni visive.
  • L'allucinazione può verificarsi anche quando i modelli assegnano un'attenzione sostanziale ai token dell'immagine.
  • La struttura ad alta frequenza dell'attenzione visiva, misurata dall'energia laplaciana a livello di strato, rivela gli strati allucinatori.
  • LaSCD (Laplacian-Spectral Contrastive Decoding) è una strategia di decodifica senza addestramento.
  • LaSCD seleziona strati informativi tramite l'energia laplaciana e rimappa i logit del token successivo in forma chiusa.
  • Il documento è pubblicato su arXiv con identificatore 2605.11559.
  • Lo studio si concentra sul ragionamento visivo e sul question answering basato su immagini.
  • Il metodo può rilevare dove le risposte corrette si ripristinano temporaneamente.

Entità

Istituzioni

  • arXiv

Fonti