ARTFEED — Contemporary Art Intelligence

DO-Bench diagnostica l'allucinazione degli oggetti nei VLM

ai-technology · 2026-04-29

Un nuovo benchmark diagnostico chiamato DO-Bench è stato sviluppato dai ricercatori per individuare le cause sottostanti dell'allucinazione a livello di oggetto nei modelli visione-linguaggio (VLM). A differenza dei benchmark tradizionali che enfatizzano l'accuratezza complessiva, DO-Bench distingue se gli errori derivano da vincoli percettivi o da prior testuali contestuali attraverso interventi multimodali strutturati. Esamina due aspetti: la dimensione Prior Override, che potenzia i prior testuali contestuali mantenendo invariata l'evidenza visiva per valutare la resistenza alle influenze dei prior, e la dimensione Perception-Limited, che migliora progressivamente l'evidenza visiva da scene complete a ritagli specifici di oggetti per valutare la forza del radicamento percettivo. Questo duplice approccio mira a chiarire i meccanismi di fallimento fondamentali nella verifica binaria dell'esistenza degli oggetti, un problema chiave di affidabilità per i VLM. Il benchmark è dettagliato in arXiv:2604.22822v1.

Fatti principali

  • DO-Bench è un benchmark diagnostico controllato per l'allucinazione a livello di oggetto nei VLM.
  • Isola gli errori derivanti da limitazioni percettive rispetto ai prior testuali contestuali.
  • La dimensione Prior Override testa la resistenza alla pressione dei prior.
  • La dimensione Perception-Limited misura la forza del radicamento percettivo.
  • Utilizza interventi multimodali strutturati.
  • I benchmark esistenti si concentrano sull'accuratezza aggregata.
  • Il benchmark affronta la verifica binaria dell'esistenza degli oggetti.
  • La ricerca è descritta in arXiv:2604.22822v1.

Entità

Istituzioni

  • arXiv

Fonti