InterChart: Benchmark per testare i VLM sul ragionamento multi-grafico
InterChart è stato lanciato da ricercatori come standard diagnostico volto a valutare le capacità di ragionamento dei modelli visione-linguaggio (VLM) su grafici interconnessi. Questa valutazione è cruciale per usi pratici in ambiti come la reportistica scientifica, l'analisi finanziaria e i dashboard di politiche pubbliche. A differenza dei precedenti benchmark che esaminavano grafici isolati e visivamente simili, InterChart presenta una varietà di tipi di domande, tra cui inferenza di entità, correlazione di tendenze, stima numerica e ragionamento complesso multi-step basato su 2-3 grafici correlati. Il benchmark è composto da tre livelli di difficoltà: ragionamento fattuale con singoli grafici, analisi integrativa di insiemi di grafici allineati e inferenza semantica utilizzando coppie di grafici reali visivamente complessi. Le valutazioni mostrano che sia i VLM open-source che quelli closed-source subiscono significativi cali di accuratezza all'aumentare della complessità dei grafici.
Fatti principali
- InterChart è un benchmark diagnostico per modelli visione-linguaggio.
- Valuta il ragionamento su più grafici correlati.
- I compiti includono inferenza di entità, correlazione di tendenze, stima numerica e ragionamento multi-step.
- Il benchmark ha tre livelli di difficoltà crescente.
- I livelli coprono singoli grafici, insiemi sintetici e coppie reali.
- I VLM allo stato dell'arte mostrano forti cali di accuratezza con la complessità.
- InterChart è mirato ad applicazioni in reportistica scientifica, analisi finanziaria e dashboard di politiche.
- Il benchmark è stato introdotto in arXiv:2508.07630v2.
Entità
Istituzioni
- arXiv