Nuovo Metodo ILVAD Riduce le Allucinazioni nei Grandi Modelli Visione-Linguaggio
I ricercatori hanno identificato che i Grandi Modelli Visione-Linguaggio (LVLM) allucinano a causa di un'attenzione insufficiente alle prove visive corrette, che vengono gradualmente dimenticate durante la generazione. Hanno osservato una discrepanza nell'attenzione visiva tra i livelli, dove alcuni strati mostrano sensibilità alle prove corrette. Basandosi su questo, propongono ILVAD (Inter-Layer Visual Attention Discrepancy), un metodo che potenzia le prove visive identificando i token attivati ripetutamente attraverso i livelli. L'approccio utilizza i pesi di attenzione dai primi token generati ai token visivi. Questo lavoro è pubblicato su arXiv con ID 2605.20965.
Fatti principali
- I LVLM allucinano quando prestano insufficiente attenzione alle prove visive corrette.
- I LVLM dimenticano gradualmente le prove visive durante la generazione.
- Strati specifici mostrano sensibilità alle prove visive corrette con discrepanza tra i livelli.
- ILVAD potenzia le prove visive basandosi sulla discrepanza dell'attenzione visiva tra i livelli.
- Vengono utilizzati i pesi di attenzione dai primi token generati ai token visivi.
- Vengono identificati i token attivati ripetutamente attraverso i livelli.
- Il metodo mira a mitigare le allucinazioni nei LVLM.
- L'articolo è disponibile su arXiv.
Entità
Istituzioni
- arXiv