DO-Bench diagnostica l'allucinazione degli oggetti nei VLM
Un nuovo benchmark diagnostico chiamato DO-Bench è stato sviluppato dai ricercatori per individuare le cause sottostanti dell'allucinazione a livello di oggetto nei modelli visione-linguaggio (VLM). A differenza dei benchmark tradizionali che enfatizzano l'accuratezza complessiva, DO-Bench distingue se gli errori derivano da vincoli percettivi o da prior testuali contestuali attraverso interventi multimodali strutturati. Esamina due aspetti: la dimensione Prior Override, che potenzia i prior testuali contestuali mantenendo invariata l'evidenza visiva per valutare la resistenza alle influenze dei prior, e la dimensione Perception-Limited, che migliora progressivamente l'evidenza visiva da scene complete a ritagli specifici di oggetti per valutare la forza del radicamento percettivo. Questo duplice approccio mira a chiarire i meccanismi di fallimento fondamentali nella verifica binaria dell'esistenza degli oggetti, un problema chiave di affidabilità per i VLM. Il benchmark è dettagliato in arXiv:2604.22822v1.
Fatti principali
- DO-Bench è un benchmark diagnostico controllato per l'allucinazione a livello di oggetto nei VLM.
- Isola gli errori derivanti da limitazioni percettive rispetto ai prior testuali contestuali.
- La dimensione Prior Override testa la resistenza alla pressione dei prior.
- La dimensione Perception-Limited misura la forza del radicamento percettivo.
- Utilizza interventi multimodali strutturati.
- I benchmark esistenti si concentrano sull'accuratezza aggregata.
- Il benchmark affronta la verifica binaria dell'esistenza degli oggetti.
- La ricerca è descritta in arXiv:2604.22822v1.
Entità
Istituzioni
- arXiv