OMIBench: Nuovo benchmark testa il ragionamento multi-immagine a livello olimpico nei LVLM

other · 2026-04-24

I ricercatori hanno introdotto OMIBench, un benchmark progettato per valutare i grandi modelli visione-linguaggio (LVLM) su compiti di ragionamento a livello olimpico che richiedono l'integrazione di informazioni provenienti da più immagini. Il benchmark include problemi tratti da olimpiadi di biologia, chimica, matematica e fisica, accompagnati da spiegazioni annotate manualmente e protocolli di valutazione per il confronto esatto e semantico delle risposte. Gli esperimenti rivelano significative differenze di prestazione tra i modelli attuali, con il LVLM più forte, Gemini-3-Pro, che raggiunge solo circa il 50% di accuratezza. OMIBench mira a colmare la limitazione dei benchmark multimodali a livello olimpico esistenti, che si concentrano sull'analisi di singole immagini, fornendo una risorsa per studiare e migliorare il ragionamento multi-immagine nei LVLM.

Fatti principali

OMIBench valuta il ragionamento a livello olimpico attraverso più immagini.
Copre olimpiadi di biologia, chimica, matematica e fisica.
Include spiegazioni annotate manualmente e protocolli di valutazione.
Gemini-3-Pro raggiunge solo circa il 50% di accuratezza su OMIBench.
I modelli esistenti mostrano significative differenze di prestazione.
I benchmark olimpici attuali enfatizzano l'analisi di singole immagini.
OMIBench è progettato per sfruttare le informazioni contestuali tra le immagini.
Il benchmark è una risorsa mirata per il ragionamento multi-immagine.

Entità

—

Fonti

arXiv cs.AI — 2026-04-23