Il benchmark HalluScope rivela che i priori testuali sono la causa principale delle allucinazioni degli LVLM

ai-technology · 2026-04-25

Un nuovo studio da arXiv (2604.21911v1) introduce HalluScope, un benchmark progettato per identificare le cause primarie delle allucinazioni nei modelli linguistico-visivi su larga scala (LVLM). La ricerca scopre che le allucinazioni sono in gran parte guidate da un'eccessiva dipendenza da priori testuali e conoscenze di base, in particolare informazioni introdotte attraverso istruzioni testuali, piuttosto che da limitazioni del backbone visivo o dalla dominanza della componente linguistica. Per affrontare questo problema, gli autori propongono HalluVL-DPO, un framework di fine-tuning che orienta gli LVLM pronti all'uso verso risposte più visivamente fondate utilizzando l'ottimizzazione delle preferenze. Il lavoro fornisce un'analisi sistematica dei fattori di allucinazione e offre una strategia di mitigazione.

Fatti principali

Proposto il benchmark HalluScope per comprendere i fattori che inducono allucinazioni negli LVLM
Le allucinazioni derivano da un'eccessiva dipendenza da priori testuali e conoscenze di base
Le istruzioni testuali sono una fonte chiave di priori che inducono allucinazioni
Il framework HalluVL-DPO affina gli LVLM per risposte visivamente fondate
HalluVL-DPO sfrutta l'ottimizzazione delle preferenze
Studio pubblicato su arXiv con identificatore 2604.21911v1
La ricerca risolve l'ambiguità sull'importanza relativa dei fattori di allucinazione
Lavori precedenti attribuivano le allucinazioni a limitazioni del backbone visivo o alla dominanza linguistica

Il benchmark HalluScope rivela che i priori testuali sono la causa principale delle allucinazioni degli LVLM

Fatti principali

Entità

Istituzioni

Fonti