Framework di Benchmarking LLM per la Valutazione Automatica delle Competenze Matematiche

other · 2026-05-01

Uno studio propone un framework di benchmarking Human-in-the-Loop per valutare LLM eterogenei nell'automazione della valutazione basata sulle competenze in matematica a livello secondario, utilizzando il curriculum di Grado 10 del Nepal. L'ensemble multi-provider include modelli open-weight Eagle (Llama 3.1-8B) e Orion (Llama 3.3-70B), e modelli proprietari Nova (Gemini 2.5 Flash) e Lyra (Gemini 3 Pro). La verità di base è stata stabilita da due docenti senior di matematica con elevata affidabilità inter-rater (kappa_w = 0.8652). Il framework affronta la sfida manuale della mappatura qualitativa delle competenze nell'Educazione Basata sulle Competenze.

Fatti principali

Framework di benchmarking Human-in-the-Loop per LLM nella valutazione automatica delle competenze
Utilizza il curriculum di Matematica Opzionale di Grado 10 in Nepal
Rubrica multidimensionale per quattro argomenti e quattro competenze trasversali: Comprensione, Conoscenza, Fluidità Operativa, Comportamento e Correlazione
L'ensemble include Eagle (Llama 3.1-8B), Orion (Llama 3.3-70B), Nova (Gemini 2.5 Flash), Lyra (Gemini 3 Pro)
Verità di base definita da due docenti senior di matematica (kappa_w = 0.8652)
Pubblicato su arXiv (2604.26607)

Entità

Istituzioni

arXiv

Luoghi

Nepal

Fonti

arXiv cs.AI — 2026-04-30