GPT-4o valuta esami di fisica scritti a mano in uno studio sulla valutazione assistita dall'IA
Uno studio recente su arXiv indaga l'utilizzo di GPT-4o per la valutazione di risposte scritte a mano in esami di fisica per corsi universitari. Evidenzia le difficoltà riscontrate nelle valutazioni STEM, dove i formati di risposta diversificati rendono la correzione manuale sia tediosa che incoerente. Quattro docenti e il modello di IA hanno valutato venti elaborati autentici scritti a mano utilizzando rubriche basate sulle competenze. La ricerca ha esplorato come diversi formati di prompt e impostazioni di temperatura influenzassero la coerenza della valutazione. Sebbene i modelli linguistici di grandi dimensioni abbiano fatto progressi, ci sono dati limitati su come la progettazione delle rubriche e le configurazioni influenzino l'affidabilità. Concentrandosi sulle risposte costruite in fisica, l'articolo, arXiv:2604.12227v1, offre approfondimenti empirici sulle capacità e i limiti dell'IA nella valutazione educativa.
Fatti principali
- Lo studio esamina la valutazione assistita dall'IA di esami di fisica scritti a mano utilizzando GPT-4o
- Venti risposte autentiche scritte a mano da esami di fisica universitari sono state analizzate
- Quattro docenti hanno valutato le risposte in due sessioni per il confronto
- La ricerca ha utilizzato rubriche basate sulle competenze con diversi livelli di granularità analitica
- Il formato dei prompt e le impostazioni di temperatura sono state variate sistematicamente
- Lo studio affronta le sfide della valutazione di test STEM scritti a mano con espressioni simboliche e diagrammi
- La correzione manuale di tali risposte richiede tempo ed è soggetta a incoerenze tra valutatori
- Articolo pubblicato come arXiv:2604.12227v1 con tipo di annuncio: nuovo
Entità
Istituzioni
- arXiv