ARTFEED — Contemporary Art Intelligence

Il Sovra-allineamento Geometrico Causa Allucinazioni nei Modelli Visione-Linguaggio

ai-technology · 2026-05-12

Un nuovo studio da arXiv (2605.08245) identifica il sovra-allineamento geometrico come causa principale delle allucinazioni nei modelli visione-linguaggio (VLM) basati su decoder. I ricercatori attribuiscono i fallimenti a un eccessivo allineamento degli embedding visivi con il manifold testuale, che introduce un bias linguistico che oscura le evidenze visive. Questa è la prima caratterizzazione quantitativa del fenomeno, mostrando che il bias si concentra nelle componenti principali superiori. I lavori precedenti o chiudono aggressivamente il divario modale o utilizzano costosi metodi di decodifica a scatola nera, ma nessuno affronta la causa geometrica sottostante. I risultati hanno implicazioni per applicazioni ad alto rischio come l'imaging medico e i sistemi autonomi.

Fatti principali

  • Lo studio indaga le cause profonde delle allucinazioni nei VLM basati su decoder.
  • Il sovra-allineamento geometrico colma il divario modale allineando eccessivamente gli embedding visivi con il manifold testuale.
  • Il bias linguistico oscura sistematicamente le evidenze visive a grana fine.
  • Prima caratterizzazione quantitativa del sovra-allineamento nei VLM.
  • Il bias si concentra nelle componenti principali superiori.
  • I lavori precedenti utilizzano una chiusura aggressiva del divario o decodifica a scatola nera, non una correzione geometrica.
  • Implicazioni per l'imaging medico e i sistemi autonomi.
  • Articolo disponibile su arXiv con ID 2605.08245.

Entità

Istituzioni

  • arXiv

Fonti