ARTFEED — Contemporary Art Intelligence

OMIBench: Nuovo benchmark testa il ragionamento multi-immagine a livello olimpico nei LVLM

other · 2026-04-24

I ricercatori hanno introdotto OMIBench, un benchmark progettato per valutare i grandi modelli visione-linguaggio (LVLM) su compiti di ragionamento a livello olimpico che richiedono l'integrazione di informazioni provenienti da più immagini. Il benchmark include problemi tratti da olimpiadi di biologia, chimica, matematica e fisica, accompagnati da spiegazioni annotate manualmente e protocolli di valutazione per il confronto esatto e semantico delle risposte. Gli esperimenti rivelano significative differenze di prestazione tra i modelli attuali, con il LVLM più forte, Gemini-3-Pro, che raggiunge solo circa il 50% di accuratezza. OMIBench mira a colmare la limitazione dei benchmark multimodali a livello olimpico esistenti, che si concentrano sull'analisi di singole immagini, fornendo una risorsa per studiare e migliorare il ragionamento multi-immagine nei LVLM.

Fatti principali

  • OMIBench valuta il ragionamento a livello olimpico attraverso più immagini.
  • Copre olimpiadi di biologia, chimica, matematica e fisica.
  • Include spiegazioni annotate manualmente e protocolli di valutazione.
  • Gemini-3-Pro raggiunge solo circa il 50% di accuratezza su OMIBench.
  • I modelli esistenti mostrano significative differenze di prestazione.
  • I benchmark olimpici attuali enfatizzano l'analisi di singole immagini.
  • OMIBench è progettato per sfruttare le informazioni contestuali tra le immagini.
  • Il benchmark è una risorsa mirata per il ragionamento multi-immagine.

Entità

Fonti