Agenti di tutoraggio basati su LLM falliscono nel distinguere soluzioni subottimali da errate
Uno studio recente pubblicato su arXiv (2605.16207) valuta sette agenti di feedback basati su grandi modelli linguistici (LLM) nell'ambito del tutoraggio di logica proposizionale, utilizzando verità di fondo derivate da grafi di conoscenza su 10.836 coppie di soluzioni e feedback. Mentre i modelli hanno mostrato un'accuratezza quasi perfetta per i passaggi ottimali, hanno costantemente rifiutato ragionamenti validi ma subottimali e convalidato erroneamente soluzioni errate, aree in cui il tutoraggio adattivo è cruciale. Queste carenze sembrano derivare da limitazioni architetturali piuttosto che da problemi con le informazioni stesse. Inoltre, diagnosi accurate non hanno prodotto costantemente feedback attuabili dal punto di vista pedagogico.
Fatti principali
- Lo studio valuta sette agenti di feedback basati su LLM nel tutoraggio di logica proposizionale
- Utilizza verità di fondo derivate da grafi di conoscenza su 10.836 coppie soluzione-feedback
- I modelli raggiungono un'accuratezza quasi perfetta sui passaggi ottimali ma rifiutano eccessivamente ragionamenti validi subottimali
- I modelli convalidano eccessivamente soluzioni errate
- I fallimenti persistono tra i modelli indipendentemente dal contesto della soluzione
- Suggerisce limiti architetturali piuttosto che informativi
- Una diagnosi accurata non produce in modo affidabile feedback pedagogicamente attuabile
- Pubblicato su arXiv con ID 2605.16207
Entità
Istituzioni
- arXiv