Nuovo Dataset EDU-CIRCUIT-HW Valuta i MLLM su Soluzioni Scritte a Mano in STEM
I ricercatori hanno rilasciato EDU-CIRCUIT-HW, un dataset di oltre 1.300 autentiche soluzioni scritte a mano da studenti universitari in materie STEM, per valutare i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM). Il dataset affronta la mancanza di benchmark specifici per l'interpretazione di contenuti scritti a mano con formule matematiche, diagrammi e ragionamenti testuali. Gli attuali metodi di valutazione si concentrano su risultati di compiti a valle come la correzione automatica, che esplorano solo un sottoinsieme del contenuto riconosciuto. EDU-CIRCUIT-HW utilizza trascrizioni verificate da esperti e report di valutazione per valutare la comprensione dei MLLM di complessi ragionamenti scritti a mano. Il lavoro mira a migliorare il ruolo dell'IA nell'istruzione e ridurre il carico di lavoro degli insegnanti.
Fatti principali
- Il dataset contiene oltre 1.300 autentiche soluzioni scritte a mano da studenti di un corso universitario STEM.
- EDU-CIRCUIT-HW valuta i MLLM nell'interpretazione di contenuti scritti a mano con formule, diagrammi e ragionamenti.
- Gli attuali paradigmi di valutazione si basano su compiti a valle come la correzione automatica, che non catturano la piena comprensione.
- Il dataset utilizza trascrizioni verbatim verificate da esperti e report di valutazione.
- La ricerca mira a rivoluzionare l'istruzione tradizionale e ridurre il carico di lavoro degli insegnanti.
- I MLLM sono promettenti per l'istruzione ma mancano di benchmark autentici per soluzioni scritte a mano.
- Il dataset colma il divario nella valutazione dei MLLM su complessi ragionamenti scritti a mano.
- Il lavoro è pubblicato su arXiv con ID 2602.00095.
Entità
Istituzioni
- arXiv