SOUBench: Nuovo Benchmark Rivela le Difficoltà dei MLLM con Oggetti Piccoli

ai-technology · 2026-04-29

I ricercatori hanno introdotto SOUBench, il primo benchmark completo per valutare i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) nei compiti di Comprensione di Oggetti Piccoli (SOU). Il benchmark include un dataset di valutazione SOU-VQA con 18.204 coppie domanda-risposta visiva suddivise in sei sotto-compiti e tre scenari dominanti: Guida, Aereo e Subacqueo. È stata progettata una strategia automatica di generazione di domande e risposte visive per costruire il dataset. La valutazione di 15 MLLM all'avanguardia ha rivelato capacità deboli nella comprensione di oggetti piccoli. Per affrontare questo problema, il team ha sviluppato SOU-Train, un dataset di addestramento multimodale con 11.226 coppie VQA, mirato a migliorare le prestazioni SOU. Lo studio evidenzia un divario significativo nelle attuali capacità dei MLLM e fornisce risorse per la ricerca futura.

Fatti principali

SOUBench è il primo benchmark completo per la comprensione di oggetti piccoli nei MLLM.
Il dataset SOU-VQA contiene 18.204 coppie VQA.
Sei sotto-compiti rilevanti sono inclusi nel benchmark.
Tre scenari dominanti: Guida, Aereo e Subacqueo.
Sono stati valutati 15 MLLM all'avanguardia.
I MLLM hanno mostrato capacità deboli nella comprensione di oggetti piccoli.
Il dataset di addestramento SOU-Train ha 11.226 coppie VQA.
È stata utilizzata una strategia automatica di generazione di domande e risposte visive.

Entità

—

Fonti

arXiv cs.AI — 2026-04-28