Il benchmark M$^3$-VQA testa il ragionamento dell'IA multimodale
Un nuovo benchmark chiamato M$^3$-VQA è stato lanciato da ricercatori per valutare i modelli linguistici multimodali di grandi dimensioni (MLLM) riguardo alla loro capacità di comprendere entità a grana fine e di impegnarsi in un ragionamento complesso multi-hop. A differenza degli attuali dataset VQA che enfatizzano categorie ampie e singole entità, M$^3$-VQA presenta domande multi-entità che richiedono ragionamenti attraverso vari documenti, utilizzando sia dati visivi che testuali. Questo benchmark offre prove tracciabili insieme a una base di conoscenza accuratamente curata. Le valutazioni condotte su 16 importanti MLLM in tre scenari—mancanza di conoscenza esterna, con prove verificate e incorporando input potenziati da recupero—evidenziano notevoli difficoltà, in particolare quando i modelli faticano senza risorse esterne.
Fatti principali
- M$^3$-VQA è un benchmark VQA basato sulla conoscenza.
- Valuta gli MLLM sulla comprensione di entità multimodali e ragionamento multi-hop.
- Le domande coinvolgono più entità distinte da fonti visive e testuali.
- Richiede ragionamento multi-hop sequenziale e parallelo attraverso documenti.
- Include una base di conoscenza multimodale curata e prove tracciabili.
- Sono stati valutati 16 importanti MLLM in tre impostazioni.
- I modelli hanno ottenuto scarsi risultati senza conoscenza esterna.
- Il benchmark evidenzia sfide nell'acquisizione della conoscenza e nel ragionamento.
Entità
—