Lancio del Benchmark INDOTABVQA per la Comprensione Translinguistica di Tabelle in Documenti Indonesiani
Il benchmark recentemente introdotto, INDOTABVQA, valuta il Table Visual Question Answering translinguistico con un dataset composto da 1.593 immagini di documenti in Bahasa Indonesia. Queste immagini presentano vari layout, inclusi design con bordi, senza bordi e colorati, che contengono una o più tabelle. Il benchmark comprende 1.593 coppie domanda-risposta in Bahasa Indonesia, inglese, hindi e arabo, facilitando la valutazione dei Vision-Language Model in contesti sia monolingue che translinguistici. VLMs open-source come Qwen2.5-VL, Gemma-3 e LLaMA-3.2 sono stati testati insieme a GPT-4o, rivelando discrepanze di prestazioni con tabelle intricate e lingue a risorse limitate. Il fine-tuning ha portato a miglioramenti di accuratezza: un modello da 3B è migliorato dell'11,6%, mentre un modello da 7B con fine-tuning LoRA ha registrato un aumento del 17,8%. Questo benchmark avanza significativamente la comprensione dei documenti per l'elaborazione della lingua indonesiana, evidenziando la domanda di IA multilingue nell'analisi documentale.
Fatti principali
- INDOTABVQA è un benchmark per il Table Visual Question Answering translinguistico
- Il dataset contiene 1.593 immagini di documenti in Bahasa Indonesia
- I documenti presentano tre stili visivi: con bordi, senza bordi e colorati
- Include 1.593 set domanda-risposta in quattro lingue: Bahasa Indonesia, inglese, hindi, arabo
- Valuta i principali VLMs: Qwen2.5-VL, Gemma-3, LLaMA-3.2 e GPT-4o
- Ha rivelato lacune prestazionali su tabelle complesse e lingue a risorse limitate
- Il fine-tuning ha migliorato l'accuratezza dell'11,6% (modello 3B) e del 17,8% (modello 7B)
- Si concentra sulle coordinate delle regioni tabellari nelle immagini dei documenti
Entità
—