Valutazione di Compiti di Matematica Scritti a Mano Basata su LLM Mostra Alta Precisione
Uno studio recente indaga l'efficacia dei modelli linguistici di grandi dimensioni (LLM) con capacità visive nell'automatizzare la valutazione di compiti di matematica scritti a mano. Questa ricerca, disponibile su arXiv, si basa su un precedente sistema progettato per risposte digitate, fondendo la trascrizione e la valutazione basata su rubriche di foto di compiti in un'unica chiamata LLM. La valutazione ha coinvolto compiti di studenti di due corsi STEM universitari, dove i risultati della valutazione AI sono stati confrontati con i benchmark assegnati dagli esseri umani a livello di singola voce della rubrica. I risultati indicano un alto livello di precisione, con l'87% degli errori nel modello migliore legati a problemi di trascrizione piuttosto che a un'applicazione errata della rubrica. Lo studio identifica anche i tipi di errore frequenti e sottolinea il potenziale degli LLM per valutazioni scalabili in ambienti educativi reali.
Fatti principali
- arXiv:2605.19043v1
- Valutazione automatica di matematica scritta a mano utilizzando LLM con capacità visive
- Estende il precedente sistema per risposte digitate
- Integra trascrizione e valutazione basata su rubriche in un'unica chiamata LLM
- Valutato su compiti di studenti di due corsi STEM universitari
- Confronto tra valutazione AI e verità di base assegnata dall'uomo a livello di singola voce della rubrica
- L'87% degli errori nel modello migliore dovuto a fallimenti di trascrizione
- Lo studio categorizza i tipi di errore comuni
Entità
Istituzioni
- arXiv