ARTFEED — Contemporary Art Intelligence

Nuovo Metodo ILVAD Riduce le Allucinazioni nei Grandi Modelli Visione-Linguaggio

ai-technology · 2026-05-22

I ricercatori hanno identificato che i Grandi Modelli Visione-Linguaggio (LVLM) allucinano a causa di un'attenzione insufficiente alle prove visive corrette, che vengono gradualmente dimenticate durante la generazione. Hanno osservato una discrepanza nell'attenzione visiva tra i livelli, dove alcuni strati mostrano sensibilità alle prove corrette. Basandosi su questo, propongono ILVAD (Inter-Layer Visual Attention Discrepancy), un metodo che potenzia le prove visive identificando i token attivati ripetutamente attraverso i livelli. L'approccio utilizza i pesi di attenzione dai primi token generati ai token visivi. Questo lavoro è pubblicato su arXiv con ID 2605.20965.

Fatti principali

  • I LVLM allucinano quando prestano insufficiente attenzione alle prove visive corrette.
  • I LVLM dimenticano gradualmente le prove visive durante la generazione.
  • Strati specifici mostrano sensibilità alle prove visive corrette con discrepanza tra i livelli.
  • ILVAD potenzia le prove visive basandosi sulla discrepanza dell'attenzione visiva tra i livelli.
  • Vengono utilizzati i pesi di attenzione dai primi token generati ai token visivi.
  • Vengono identificati i token attivati ripetutamente attraverso i livelli.
  • Il metodo mira a mitigare le allucinazioni nei LVLM.
  • L'articolo è disponibile su arXiv.

Entità

Istituzioni

  • arXiv

Fonti