SOUBench: Nuovo Benchmark Rivela le Difficoltà dei MLLM con Oggetti Piccoli
I ricercatori hanno introdotto SOUBench, il primo benchmark completo per valutare i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) nei compiti di Comprensione di Oggetti Piccoli (SOU). Il benchmark include un dataset di valutazione SOU-VQA con 18.204 coppie domanda-risposta visiva suddivise in sei sotto-compiti e tre scenari dominanti: Guida, Aereo e Subacqueo. È stata progettata una strategia automatica di generazione di domande e risposte visive per costruire il dataset. La valutazione di 15 MLLM all'avanguardia ha rivelato capacità deboli nella comprensione di oggetti piccoli. Per affrontare questo problema, il team ha sviluppato SOU-Train, un dataset di addestramento multimodale con 11.226 coppie VQA, mirato a migliorare le prestazioni SOU. Lo studio evidenzia un divario significativo nelle attuali capacità dei MLLM e fornisce risorse per la ricerca futura.
Fatti principali
- SOUBench è il primo benchmark completo per la comprensione di oggetti piccoli nei MLLM.
- Il dataset SOU-VQA contiene 18.204 coppie VQA.
- Sei sotto-compiti rilevanti sono inclusi nel benchmark.
- Tre scenari dominanti: Guida, Aereo e Subacqueo.
- Sono stati valutati 15 MLLM all'avanguardia.
- I MLLM hanno mostrato capacità deboli nella comprensione di oggetti piccoli.
- Il dataset di addestramento SOU-Train ha 11.226 coppie VQA.
- È stata utilizzata una strategia automatica di generazione di domande e risposte visive.
Entità
—