Autoconsistenza e sforzo di ragionamento degli LLM nella valutazione automatica

ai-technology · 2026-05-01

Una recente indagine sulla valutazione automatica con modelli linguistici di grandi dimensioni (LLM) ha rivelato che la scelta strategica dei modelli e la regolazione delle impostazioni di ragionamento superano i metodi di ensemble. I ricercatori hanno analizzato 900 discussioni di matematica delle scuole superiori confrontandole con benchmark valutati da umani, utilizzando modelli di OpenAI e Google. Hanno scoperto che il campionamento della temperatura migliora l'accuratezza rispetto agli approcci deterministici, ma l'espansione dell'ensemble da 1 a 7 non ha prodotto miglioramenti notevoli. Un aumento dello sforzo di ragionamento è correlato positivamente con l'accuratezza della valutazione, sebbene i vantaggi differissero tra le famiglie di modelli. Un'analisi della frontiera dell'efficienza ha individuato Gemini 3.1 Pro Preview come l'opzione più accurata ma costosa a basso ragionamento, mentre GPT-5.4 Nano e Mini, senza ragionamento, hanno offerto il miglior rapporto costo-prestazioni.

Fatti principali

Sono stati esaminati autoconsistenza e sforzo di ragionamento per la valutazione di item di valutazione basati su conversazioni in matematica delle scuole superiori.
Sono state valutate 900 conversazioni studentesche rispetto a verità di base valutate da umani.
Sono stati utilizzati modelli di OpenAI e Google.
Il campionamento della temperatura ha migliorato significativamente l'accuratezza rispetto alle chiamate deterministiche.
L'aumento della dimensione dell'ensemble da j=1 a 7 non ha prodotto guadagni significativi.
Un maggiore sforzo di ragionamento ha mostrato una tendenza lineare positiva significativa con l'accuratezza della valutazione.
Il beneficio dello sforzo di ragionamento variava in base alla famiglia di modelli.
Gemini 3.1 Pro Preview a basso ragionamento era il più accurato ma costoso; GPT-5.4 Nano e Mini senza ragionamento offrivano il miglior equilibrio costo-prestazioni.

Autoconsistenza e sforzo di ragionamento degli LLM nella valutazione automatica

Fatti principali

Entità

Istituzioni

Fonti