OMIBench: Nuovo benchmark testa il ragionamento multi-immagine a livello olimpico nei LVLM
I ricercatori hanno introdotto OMIBench, un benchmark progettato per valutare i grandi modelli visione-linguaggio (LVLM) su compiti di ragionamento a livello olimpico che richiedono l'integrazione di informazioni provenienti da più immagini. Il benchmark include problemi tratti da olimpiadi di biologia, chimica, matematica e fisica, accompagnati da spiegazioni annotate manualmente e protocolli di valutazione per il confronto esatto e semantico delle risposte. Gli esperimenti rivelano significative differenze di prestazione tra i modelli attuali, con il LVLM più forte, Gemini-3-Pro, che raggiunge solo circa il 50% di accuratezza. OMIBench mira a colmare la limitazione dei benchmark multimodali a livello olimpico esistenti, che si concentrano sull'analisi di singole immagini, fornendo una risorsa per studiare e migliorare il ragionamento multi-immagine nei LVLM.
Fatti principali
- OMIBench valuta il ragionamento a livello olimpico attraverso più immagini.
- Copre olimpiadi di biologia, chimica, matematica e fisica.
- Include spiegazioni annotate manualmente e protocolli di valutazione.
- Gemini-3-Pro raggiunge solo circa il 50% di accuratezza su OMIBench.
- I modelli esistenti mostrano significative differenze di prestazione.
- I benchmark olimpici attuali enfatizzano l'analisi di singole immagini.
- OMIBench è progettato per sfruttare le informazioni contestuali tra le immagini.
- Il benchmark è una risorsa mirata per il ragionamento multi-immagine.
Entità
—