La distrazione dell'attenzione causa allucinazioni nei MLLM, un nuovo algoritmo le corregge

ai-technology · 2026-05-26

Un recente studio pubblicato su arXiv indica una connessione tra le allucinazioni oggettuali nei modelli linguistici multimodali di grandi dimensioni (MLLM) e un fenomeno di distrazione dell'attenzione simile a quello osservato negli esseri umani. I ricercatori dimostrano che quando l'attenzione è divisa, gli esseri umani soffrono di una ridotta chiarezza visiva e descrizioni errate, mentre i MLLM mostrano incongruenze nell'attenzione spaziale tra più teste e un declino temporale della concentrazione sui token immagine durante la decodifica. I risultati teorici suggeriscono che tale dispersione dell'attenzione complica i modelli e mina la loro generalizzazione nella classificazione. Per mitigare questo problema, introducono l'Approccio Focalizzato sull'Attenzione per una Migliore Percezione dell'Immagine (AFIP), che migliora l'attenzione attraverso l'arricchimento cross-head e rafforza il grounding visivo con miglioramenti dinamici dell'attenzione storica.

Fatti principali

Articolo pubblicato su arXiv con ID 2605.24602
Rivela il legame tra allucinazioni oggettuali nei MLLM e distrazione dell'attenzione
La distrazione dell'attenzione causa incongruenza spaziale nell'attenzione multi-testa
Durante la decodifica si verifica un affievolimento temporale dell'attenzione ai token immagine
La dispersione dell'attenzione aumenta la complessità del modello e degrada la generalizzazione della classificazione
Propone l'algoritmo AFIP per correggere la distrazione dell'attenzione
AFIP utilizza l'arricchimento dell'attenzione cross-head e il potenziamento dinamico dell'attenzione storica

La distrazione dell'attenzione causa allucinazioni nei MLLM, un nuovo algoritmo le corregge

Fatti principali

Entità

Istituzioni

Fonti