EduAgentBench: Un Benchmark Multi-Fase per Agenti Tutor AI
EduAgentBench, un nuovo benchmark, valuta gli agenti linguistici basandosi sui processi di insegnamento reali. Comprende 150 compiti meticolosamente curati che coprono tre aree di competenza: giudizio pedagogico professionale, tutoraggio multi-turno situato e completamento di flussi di lavoro didattici in stile Canvas. Questo benchmark mira a valutare la capacità di un agente tutor di diagnosticare lo stato dello studente, adattare il supporto nel tempo, prendere decisioni pedagogicamente valide e implementare interventi in sistemi di gestione dell'apprendimento autentici. I compiti sono sviluppati utilizzando un pipeline informato da intuizioni pedagogiche e sono validati attraverso metodi di verifica aggiuntivi.
Fatti principali
- EduAgentBench è un benchmark basato su fonti per valutare gli agenti tutor.
- Contiene 150 compiti controllati per qualità.
- I compiti coprono tre superfici di competenza: giudizio pedagogico professionale, tutoraggio multi-turno situato e completamento di flussi di lavoro didattici in stile Canvas.
- Il benchmark valuta la diagnosi dello stato dello studente, l'adattamento del supporto, le decisioni pedagogicamente giustificate e l'esecuzione di interventi.
- I compiti sono costruiti attraverso un pipeline guidato da intuizioni pedagogiche.
- La valutazione utilizza una verifica complementare.
- Il benchmark colma il divario nella misurazione delle capacità di tutoraggio degli agenti linguistici.
- Agenti tutor efficaci richiedono più di risposte corrette o chiamate accurate a strumenti.
Entità
Istituzioni
- arXiv