DRAGON Benchmark Testa il Grounding Visivo nel Question Answering su Diagrammi
I ricercatori hanno lanciato DRAGON, un nuovo benchmark progettato per valutare il ragionamento visivo basato su prove all'interno di diagrammi. Il question answering su diagrammi (DQA) coinvolge modelli che interpretano formati visivi organizzati come grafici, mappe, infografiche, schemi circuitali e diagrammi scientifici. Sebbene i recenti modelli visione-linguaggio (VLM) spesso mostrino un'elevata accuratezza nel rispondere a queste domande, ottenere la risposta corretta non garantisce che i modelli utilizzino le regioni del diagramma che sostengono le loro previsioni. Invece, possono dipendere da collegamenti testuali o artefatti del dataset, bypassando le prove visive necessarie per la verifica della risposta. Questa carenza ostacola una valutazione efficace del ragionamento sui diagrammi e riduce l'interpretabilità. DRAGON mitiga questo problema richiedendo ai modelli di identificare bounding box per gli elementi visivi che supportano la risposta, inclusi componenti che contengono risposte e testo rilevante. Il benchmark mira a una valutazione più approfondita della comprensione dei diagrammi da parte dei sistemi di IA.
Fatti principali
- DRAGON è un benchmark per il ragionamento visivo basato su prove nei diagrammi.
- Valuta i modelli sulla previsione di bounding box per le prove visive a supporto delle risposte.
- Il question answering su diagrammi coinvolge elementi visivi strutturati come grafici, mappe e schemi.
- Gli attuali VLM spesso raggiungono un'elevata accuratezza senza un corretto grounding visivo.
- I modelli possono fare affidamento su correlazioni testuali o artefatti del dataset.
- Il benchmark richiede ai modelli di identificare elementi visivi che giustificano la risposta.
- Le regioni di prova possono includere componenti che contengono la risposta e parti testuali.
- DRAGON mira a migliorare l'affidabilità e l'interpretabilità del ragionamento sui diagrammi.
Entità
—