Il Sovra-allineamento Geometrico Causa Allucinazioni nei Modelli Visione-Linguaggio
Un nuovo studio da arXiv (2605.08245) identifica il sovra-allineamento geometrico come causa principale delle allucinazioni nei modelli visione-linguaggio (VLM) basati su decoder. I ricercatori attribuiscono i fallimenti a un eccessivo allineamento degli embedding visivi con il manifold testuale, che introduce un bias linguistico che oscura le evidenze visive. Questa è la prima caratterizzazione quantitativa del fenomeno, mostrando che il bias si concentra nelle componenti principali superiori. I lavori precedenti o chiudono aggressivamente il divario modale o utilizzano costosi metodi di decodifica a scatola nera, ma nessuno affronta la causa geometrica sottostante. I risultati hanno implicazioni per applicazioni ad alto rischio come l'imaging medico e i sistemi autonomi.
Fatti principali
- Lo studio indaga le cause profonde delle allucinazioni nei VLM basati su decoder.
- Il sovra-allineamento geometrico colma il divario modale allineando eccessivamente gli embedding visivi con il manifold testuale.
- Il bias linguistico oscura sistematicamente le evidenze visive a grana fine.
- Prima caratterizzazione quantitativa del sovra-allineamento nei VLM.
- Il bias si concentra nelle componenti principali superiori.
- I lavori precedenti utilizzano una chiusura aggressiva del divario o decodifica a scatola nera, non una correzione geometrica.
- Implicazioni per l'imaging medico e i sistemi autonomi.
- Articolo disponibile su arXiv con ID 2605.08245.
Entità
Istituzioni
- arXiv