ARTFEED — Contemporary Art Intelligence

Il benchmark HalluScope rivela che i priori testuali sono la causa principale delle allucinazioni degli LVLM

ai-technology · 2026-04-25

Un nuovo studio da arXiv (2604.21911v1) introduce HalluScope, un benchmark progettato per identificare le cause primarie delle allucinazioni nei modelli linguistico-visivi su larga scala (LVLM). La ricerca scopre che le allucinazioni sono in gran parte guidate da un'eccessiva dipendenza da priori testuali e conoscenze di base, in particolare informazioni introdotte attraverso istruzioni testuali, piuttosto che da limitazioni del backbone visivo o dalla dominanza della componente linguistica. Per affrontare questo problema, gli autori propongono HalluVL-DPO, un framework di fine-tuning che orienta gli LVLM pronti all'uso verso risposte più visivamente fondate utilizzando l'ottimizzazione delle preferenze. Il lavoro fornisce un'analisi sistematica dei fattori di allucinazione e offre una strategia di mitigazione.

Fatti principali

  • Proposto il benchmark HalluScope per comprendere i fattori che inducono allucinazioni negli LVLM
  • Le allucinazioni derivano da un'eccessiva dipendenza da priori testuali e conoscenze di base
  • Le istruzioni testuali sono una fonte chiave di priori che inducono allucinazioni
  • Il framework HalluVL-DPO affina gli LVLM per risposte visivamente fondate
  • HalluVL-DPO sfrutta l'ottimizzazione delle preferenze
  • Studio pubblicato su arXiv con identificatore 2604.21911v1
  • La ricerca risolve l'ambiguità sull'importanza relativa dei fattori di allucinazione
  • Lavori precedenti attribuivano le allucinazioni a limitazioni del backbone visivo o alla dominanza linguistica

Entità

Istituzioni

  • arXiv

Fonti