Il dataset MEDS mappa il ragionamento matematico degli LLM su 28.000 persone

ai-technology · 2026-05-01

I ricercatori hanno introdotto MEDS (Math Education Digital Shadows), un dataset progettato per valutare come i modelli linguistici di grandi dimensioni ragionano sulla matematica in condizioni simili a quelle umane e a quelle dell'IA. Il dataset comprende 28.000 persone derivate da 14 LLM, inclusi modelli delle famiglie Mistral, Qwen, DeepSeek, Granite, Phi e Grok. Ogni persona è sottoposta a quattro tipi di compiti matematici: un'intervista matematica aperta, tre test psicometrici sulle percezioni matematiche con spiegazioni, reti cognitive che catturano gli atteggiamenti matematici e 18 domande di matematica di livello liceale con ragionamento e punteggi di confidenza. A differenza dei benchmark tradizionali basati solo sui punteggi, MEDS integra concetti di autoefficacia e ansia matematica per fornire un quadro più ricco delle capacità e dei bias matematici degli LLM.

Fatti principali

MEDS sta per Math Education Digital Shadows.
Il dataset include 28.000 persone da 14 LLM.
Famiglie di LLM utilizzate: Mistral, Qwen, DeepSeek, Granite, Phi, Grok.
Le persone rappresentano umani o assistenti IA.
I compiti includono intervista matematica aperta, test psicometrici, reti cognitive e 18 domande di matematica di livello liceale.
I test psicometrici valutano le percezioni matematiche con spiegazioni.
Le reti cognitive catturano gli atteggiamenti matematici.
MEDS va oltre i benchmark basati solo sui punteggi includendo autoefficacia e ansia matematica.
Il dataset mira a migliorare l'impatto degli LLM sull'educazione matematica.

Entità

—

Fonti

arXiv cs.AI — 2026-05-01