LiveK12Bench: Nuovo Benchmark Testa LMM su Esami Scolastici Reali
I ricercatori hanno introdotto LiveK12Bench, un benchmark dinamico progettato per valutare i modelli multimodali di grandi dimensioni (LMM) su esami autentici a livello di scuola superiore. A differenza dei dataset statici soggetti a contaminazione, LiveK12Bench comprende oltre 2.000 domande verificate provenienti dai più recenti esami reali di Matematica, Fisica, Chimica e Biologia. Il benchmark presenta una pipeline automatizzata per aggiornamenti continui, con l'obiettivo di riflettere ambienti di test genuini. Ciò affronta le limitazioni dei benchmark esistenti, spesso limitati in termini di modalità, discipline e criteri di valutazione. Il lavoro è pubblicato su arXiv con identificativo 2605.26781.
Fatti principali
- LiveK12Bench è un benchmark dinamico, olistico e multidisciplinare per LMM.
- Include oltre 2.000 domande verificate da esami reali.
- Materie coperte: Matematica, Fisica, Chimica, Biologia.
- Progettato per crescere nel tempo con aggiornamenti automatizzati.
- Affronta i problemi dei dataset statici e della contaminazione dei dati.
- Pubblicato su arXiv: 2605.26781.
- Mira a valutare il ragionamento in scenari d'esame realistici.
- Innovazione principale: pipeline automatizzata per espansione continua.
Entità
Istituzioni
- arXiv