Ragionamento Matematico degli LLM: Alta Precisione, Bassa Diversità Strategica

other · 2026-05-12

Uno studio recente pubblicato su arXiv (2605.09292) presenta un framework per valutare le capacità di ragionamento matematico dei grandi modelli linguistici. Analizzando 80 problemi tratti da AMC 10/12 e AIME insieme a 217 famiglie di strategie derivate da AoPS, i ricercatori hanno scoperto una separazione tra l'accuratezza delle risposte e la varietà delle strategie impiegate. Quando sollecitati con compiti a soluzione singola, i modelli hanno mostrato un tasso di accuratezza del 95-100%. Tuttavia, di fronte a prompt con strategie multiple, hanno evidenziato una significativa riduzione nel recupero delle strategie rispetto agli umani. Gemini ha prodotto 184 strategie valide uniche, mentre DeepSeek ne ha generate 152, GPT 151 e Claude 110, con le discrepanze più marcate in Geometria e Teoria dei Numeri. Inoltre, i modelli hanno creato 50 strategie valide non presenti nei benchmark.

Fatti principali

1. Lo studio valuta la diversità strategica nel ragionamento matematico degli LLM oltre alla precisione.
2. Il framework utilizza 80 problemi AMC 10/12 e AIME con 217 famiglie di strategie di riferimento AoPS.
3. Doppia codifica AI con giudizio umano annota identità, validità e correttezza delle strategie.
4. Con prompt a soluzione singola, i modelli raggiungono un'accuratezza del 95-100%.
5. Con prompt a strategie multiple, i modelli recuperano meno strategie rispetto al set di riferimento umano.
6. Gemini guida con 184 strategie valide distinte, seguito da DeepSeek (152), GPT (151), Claude (110).
7. I maggiori divari strategici si riscontrano in Geometria e Teoria dei Numeri.
8. I modelli producono collettivamente 50 strategie valide non presenti nei benchmark.

Ragionamento Matematico degli LLM: Alta Precisione, Bassa Diversità Strategica

Fatti principali

Entità

Istituzioni

Fonti