DO-Bench diagnostica l'allucinazione degli oggetti nei VLM

ai-technology · 2026-04-29

Un nuovo benchmark diagnostico chiamato DO-Bench è stato sviluppato dai ricercatori per individuare le cause sottostanti dell'allucinazione a livello di oggetto nei modelli visione-linguaggio (VLM). A differenza dei benchmark tradizionali che enfatizzano l'accuratezza complessiva, DO-Bench distingue se gli errori derivano da vincoli percettivi o da prior testuali contestuali attraverso interventi multimodali strutturati. Esamina due aspetti: la dimensione Prior Override, che potenzia i prior testuali contestuali mantenendo invariata l'evidenza visiva per valutare la resistenza alle influenze dei prior, e la dimensione Perception-Limited, che migliora progressivamente l'evidenza visiva da scene complete a ritagli specifici di oggetti per valutare la forza del radicamento percettivo. Questo duplice approccio mira a chiarire i meccanismi di fallimento fondamentali nella verifica binaria dell'esistenza degli oggetti, un problema chiave di affidabilità per i VLM. Il benchmark è dettagliato in arXiv:2604.22822v1.

Fatti principali

DO-Bench è un benchmark diagnostico controllato per l'allucinazione a livello di oggetto nei VLM.
Isola gli errori derivanti da limitazioni percettive rispetto ai prior testuali contestuali.
La dimensione Prior Override testa la resistenza alla pressione dei prior.
La dimensione Perception-Limited misura la forza del radicamento percettivo.
Utilizza interventi multimodali strutturati.
I benchmark esistenti si concentrano sull'accuratezza aggregata.
Il benchmark affronta la verifica binaria dell'esistenza degli oggetti.
La ricerca è descritta in arXiv:2604.22822v1.

DO-Bench diagnostica l'allucinazione degli oggetti nei VLM

Fatti principali

Entità

Istituzioni

Fonti