Framework di Benchmarking LLM per la Valutazione Automatica delle Competenze Matematiche
Uno studio propone un framework di benchmarking Human-in-the-Loop per valutare LLM eterogenei nell'automazione della valutazione basata sulle competenze in matematica a livello secondario, utilizzando il curriculum di Grado 10 del Nepal. L'ensemble multi-provider include modelli open-weight Eagle (Llama 3.1-8B) e Orion (Llama 3.3-70B), e modelli proprietari Nova (Gemini 2.5 Flash) e Lyra (Gemini 3 Pro). La verità di base è stata stabilita da due docenti senior di matematica con elevata affidabilità inter-rater (kappa_w = 0.8652). Il framework affronta la sfida manuale della mappatura qualitativa delle competenze nell'Educazione Basata sulle Competenze.
Fatti principali
- Framework di benchmarking Human-in-the-Loop per LLM nella valutazione automatica delle competenze
- Utilizza il curriculum di Matematica Opzionale di Grado 10 in Nepal
- Rubrica multidimensionale per quattro argomenti e quattro competenze trasversali: Comprensione, Conoscenza, Fluidità Operativa, Comportamento e Correlazione
- L'ensemble include Eagle (Llama 3.1-8B), Orion (Llama 3.3-70B), Nova (Gemini 2.5 Flash), Lyra (Gemini 3 Pro)
- Verità di base definita da due docenti senior di matematica (kappa_w = 0.8652)
- Pubblicato su arXiv (2604.26607)
Entità
Istituzioni
- arXiv
Luoghi
- Nepal