Nuovo Metodo ILVAD Riduce le Allucinazioni nei Grandi Modelli Visione-Linguaggio

ai-technology · 2026-05-22

I ricercatori hanno identificato che i Grandi Modelli Visione-Linguaggio (LVLM) allucinano a causa di un'attenzione insufficiente alle prove visive corrette, che vengono gradualmente dimenticate durante la generazione. Hanno osservato una discrepanza nell'attenzione visiva tra i livelli, dove alcuni strati mostrano sensibilità alle prove corrette. Basandosi su questo, propongono ILVAD (Inter-Layer Visual Attention Discrepancy), un metodo che potenzia le prove visive identificando i token attivati ripetutamente attraverso i livelli. L'approccio utilizza i pesi di attenzione dai primi token generati ai token visivi. Questo lavoro è pubblicato su arXiv con ID 2605.20965.

Fatti principali

I LVLM allucinano quando prestano insufficiente attenzione alle prove visive corrette.
I LVLM dimenticano gradualmente le prove visive durante la generazione.
Strati specifici mostrano sensibilità alle prove visive corrette con discrepanza tra i livelli.
ILVAD potenzia le prove visive basandosi sulla discrepanza dell'attenzione visiva tra i livelli.
Vengono utilizzati i pesi di attenzione dai primi token generati ai token visivi.
Vengono identificati i token attivati ripetutamente attraverso i livelli.
Il metodo mira a mitigare le allucinazioni nei LVLM.
L'articolo è disponibile su arXiv.

Nuovo Metodo ILVAD Riduce le Allucinazioni nei Grandi Modelli Visione-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti