ARTFEED — Contemporary Art Intelligence

Framework di Benchmarking LLM per la Valutazione Automatica delle Competenze Matematiche

other · 2026-05-01

Uno studio propone un framework di benchmarking Human-in-the-Loop per valutare LLM eterogenei nell'automazione della valutazione basata sulle competenze in matematica a livello secondario, utilizzando il curriculum di Grado 10 del Nepal. L'ensemble multi-provider include modelli open-weight Eagle (Llama 3.1-8B) e Orion (Llama 3.3-70B), e modelli proprietari Nova (Gemini 2.5 Flash) e Lyra (Gemini 3 Pro). La verità di base è stata stabilita da due docenti senior di matematica con elevata affidabilità inter-rater (kappa_w = 0.8652). Il framework affronta la sfida manuale della mappatura qualitativa delle competenze nell'Educazione Basata sulle Competenze.

Fatti principali

  • Framework di benchmarking Human-in-the-Loop per LLM nella valutazione automatica delle competenze
  • Utilizza il curriculum di Matematica Opzionale di Grado 10 in Nepal
  • Rubrica multidimensionale per quattro argomenti e quattro competenze trasversali: Comprensione, Conoscenza, Fluidità Operativa, Comportamento e Correlazione
  • L'ensemble include Eagle (Llama 3.1-8B), Orion (Llama 3.3-70B), Nova (Gemini 2.5 Flash), Lyra (Gemini 3 Pro)
  • Verità di base definita da due docenti senior di matematica (kappa_w = 0.8652)
  • Pubblicato su arXiv (2604.26607)

Entità

Istituzioni

  • arXiv

Luoghi

  • Nepal

Fonti