La distrazione dell'attenzione causa allucinazioni nei MLLM, un nuovo algoritmo le corregge
Un recente studio pubblicato su arXiv indica una connessione tra le allucinazioni oggettuali nei modelli linguistici multimodali di grandi dimensioni (MLLM) e un fenomeno di distrazione dell'attenzione simile a quello osservato negli esseri umani. I ricercatori dimostrano che quando l'attenzione è divisa, gli esseri umani soffrono di una ridotta chiarezza visiva e descrizioni errate, mentre i MLLM mostrano incongruenze nell'attenzione spaziale tra più teste e un declino temporale della concentrazione sui token immagine durante la decodifica. I risultati teorici suggeriscono che tale dispersione dell'attenzione complica i modelli e mina la loro generalizzazione nella classificazione. Per mitigare questo problema, introducono l'Approccio Focalizzato sull'Attenzione per una Migliore Percezione dell'Immagine (AFIP), che migliora l'attenzione attraverso l'arricchimento cross-head e rafforza il grounding visivo con miglioramenti dinamici dell'attenzione storica.
Fatti principali
- Articolo pubblicato su arXiv con ID 2605.24602
- Rivela il legame tra allucinazioni oggettuali nei MLLM e distrazione dell'attenzione
- La distrazione dell'attenzione causa incongruenza spaziale nell'attenzione multi-testa
- Durante la decodifica si verifica un affievolimento temporale dell'attenzione ai token immagine
- La dispersione dell'attenzione aumenta la complessità del modello e degrada la generalizzazione della classificazione
- Propone l'algoritmo AFIP per correggere la distrazione dell'attenzione
- AFIP utilizza l'arricchimento dell'attenzione cross-head e il potenziamento dinamico dell'attenzione storica
Entità
Istituzioni
- arXiv