PolyChartQA Benchmark Testa la Comprensione AI di Grafici Multipli
I ricercatori hanno introdotto PolyChartQA, un dataset di media scala progettato per valutare il question answering su immagini contenenti più grafici. Il dataset comprende 534 immagini multi-grafico con 2.297 sottografici provenienti da pubblicazioni peer-reviewed di informatica, insieme a 2.694 coppie QA. Sono stati testati nove modelli linguistici multimodali (MLM) all'avanguardia, rivelando un calo del 27,4% nell'accuratezza basata su LLM per domande scritte da umani rispetto a quelle generate da MLM. Un metodo di prompting proposto ha ottenuto un aumento di accuratezza del 5,39%. Il lavoro affronta l'area poco esplorata della comprensione di grafici multipli in contesti reali.
Fatti principali
- PolyChartQA è un dataset di media scala per il question answering su immagini con più grafici.
- Include 534 immagini multi-grafico con 2.297 sottografici da pubblicazioni peer-reviewed di informatica.
- Il dataset contiene 2.694 coppie QA.
- Sono stati valutati nove modelli linguistici multimodali (MLM) all'avanguardia.
- È stato osservato un calo del 27,4% nell'L-Accuracy per domande umane rispetto a quelle generate da MLM.
- Un metodo di prompting proposto ha migliorato l'L-Accuracy del 5,39%.
- La ricerca evidenzia la sfida di interpretare più grafici correlati insieme.
- Lo studio è pubblicato su arXiv.
Entità
Istituzioni
- arXiv