PolyChartQA Benchmark Testa la Comprensione AI di Grafici Multipli

other · 2026-04-25

I ricercatori hanno introdotto PolyChartQA, un dataset di media scala progettato per valutare il question answering su immagini contenenti più grafici. Il dataset comprende 534 immagini multi-grafico con 2.297 sottografici provenienti da pubblicazioni peer-reviewed di informatica, insieme a 2.694 coppie QA. Sono stati testati nove modelli linguistici multimodali (MLM) all'avanguardia, rivelando un calo del 27,4% nell'accuratezza basata su LLM per domande scritte da umani rispetto a quelle generate da MLM. Un metodo di prompting proposto ha ottenuto un aumento di accuratezza del 5,39%. Il lavoro affronta l'area poco esplorata della comprensione di grafici multipli in contesti reali.

Fatti principali

PolyChartQA è un dataset di media scala per il question answering su immagini con più grafici.
Include 534 immagini multi-grafico con 2.297 sottografici da pubblicazioni peer-reviewed di informatica.
Il dataset contiene 2.694 coppie QA.
Sono stati valutati nove modelli linguistici multimodali (MLM) all'avanguardia.
È stato osservato un calo del 27,4% nell'L-Accuracy per domande umane rispetto a quelle generate da MLM.
Un metodo di prompting proposto ha migliorato l'L-Accuracy del 5,39%.
La ricerca evidenzia la sfida di interpretare più grafici correlati insieme.
Lo studio è pubblicato su arXiv.

PolyChartQA Benchmark Testa la Comprensione AI di Grafici Multipli

Fatti principali

Entità

Istituzioni

Fonti