Il dataset MEDS mappa il ragionamento matematico degli LLM su 28.000 persone
I ricercatori hanno introdotto MEDS (Math Education Digital Shadows), un dataset progettato per valutare come i modelli linguistici di grandi dimensioni ragionano sulla matematica in condizioni simili a quelle umane e a quelle dell'IA. Il dataset comprende 28.000 persone derivate da 14 LLM, inclusi modelli delle famiglie Mistral, Qwen, DeepSeek, Granite, Phi e Grok. Ogni persona è sottoposta a quattro tipi di compiti matematici: un'intervista matematica aperta, tre test psicometrici sulle percezioni matematiche con spiegazioni, reti cognitive che catturano gli atteggiamenti matematici e 18 domande di matematica di livello liceale con ragionamento e punteggi di confidenza. A differenza dei benchmark tradizionali basati solo sui punteggi, MEDS integra concetti di autoefficacia e ansia matematica per fornire un quadro più ricco delle capacità e dei bias matematici degli LLM.
Fatti principali
- MEDS sta per Math Education Digital Shadows.
- Il dataset include 28.000 persone da 14 LLM.
- Famiglie di LLM utilizzate: Mistral, Qwen, DeepSeek, Granite, Phi, Grok.
- Le persone rappresentano umani o assistenti IA.
- I compiti includono intervista matematica aperta, test psicometrici, reti cognitive e 18 domande di matematica di livello liceale.
- I test psicometrici valutano le percezioni matematiche con spiegazioni.
- Le reti cognitive catturano gli atteggiamenti matematici.
- MEDS va oltre i benchmark basati solo sui punteggi includendo autoefficacia e ansia matematica.
- Il dataset mira a migliorare l'impatto degli LLM sull'educazione matematica.
Entità
—