Il benchmark HalluScope rivela che i priori testuali sono la causa principale delle allucinazioni degli LVLM
Un nuovo studio da arXiv (2604.21911v1) introduce HalluScope, un benchmark progettato per identificare le cause primarie delle allucinazioni nei modelli linguistico-visivi su larga scala (LVLM). La ricerca scopre che le allucinazioni sono in gran parte guidate da un'eccessiva dipendenza da priori testuali e conoscenze di base, in particolare informazioni introdotte attraverso istruzioni testuali, piuttosto che da limitazioni del backbone visivo o dalla dominanza della componente linguistica. Per affrontare questo problema, gli autori propongono HalluVL-DPO, un framework di fine-tuning che orienta gli LVLM pronti all'uso verso risposte più visivamente fondate utilizzando l'ottimizzazione delle preferenze. Il lavoro fornisce un'analisi sistematica dei fattori di allucinazione e offre una strategia di mitigazione.
Fatti principali
- Proposto il benchmark HalluScope per comprendere i fattori che inducono allucinazioni negli LVLM
- Le allucinazioni derivano da un'eccessiva dipendenza da priori testuali e conoscenze di base
- Le istruzioni testuali sono una fonte chiave di priori che inducono allucinazioni
- Il framework HalluVL-DPO affina gli LVLM per risposte visivamente fondate
- HalluVL-DPO sfrutta l'ottimizzazione delle preferenze
- Studio pubblicato su arXiv con identificatore 2604.21911v1
- La ricerca risolve l'ambiguità sull'importanza relativa dei fattori di allucinazione
- Lavori precedenti attribuivano le allucinazioni a limitazioni del backbone visivo o alla dominanza linguistica
Entità
Istituzioni
- arXiv