Il Sovra-allineamento Geometrico Causa Allucinazioni nei Modelli Visione-Linguaggio

ai-technology · 2026-05-12

Un nuovo studio da arXiv (2605.08245) identifica il sovra-allineamento geometrico come causa principale delle allucinazioni nei modelli visione-linguaggio (VLM) basati su decoder. I ricercatori attribuiscono i fallimenti a un eccessivo allineamento degli embedding visivi con il manifold testuale, che introduce un bias linguistico che oscura le evidenze visive. Questa è la prima caratterizzazione quantitativa del fenomeno, mostrando che il bias si concentra nelle componenti principali superiori. I lavori precedenti o chiudono aggressivamente il divario modale o utilizzano costosi metodi di decodifica a scatola nera, ma nessuno affronta la causa geometrica sottostante. I risultati hanno implicazioni per applicazioni ad alto rischio come l'imaging medico e i sistemi autonomi.

Fatti principali

Lo studio indaga le cause profonde delle allucinazioni nei VLM basati su decoder.
Il sovra-allineamento geometrico colma il divario modale allineando eccessivamente gli embedding visivi con il manifold testuale.
Il bias linguistico oscura sistematicamente le evidenze visive a grana fine.
Prima caratterizzazione quantitativa del sovra-allineamento nei VLM.
Il bias si concentra nelle componenti principali superiori.
I lavori precedenti utilizzano una chiusura aggressiva del divario o decodifica a scatola nera, non una correzione geometrica.
Implicazioni per l'imaging medico e i sistemi autonomi.
Articolo disponibile su arXiv con ID 2605.08245.

Il Sovra-allineamento Geometrico Causa Allucinazioni nei Modelli Visione-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti