Autoconsistenza e sforzo di ragionamento degli LLM nella valutazione automatica
Una recente indagine sulla valutazione automatica con modelli linguistici di grandi dimensioni (LLM) ha rivelato che la scelta strategica dei modelli e la regolazione delle impostazioni di ragionamento superano i metodi di ensemble. I ricercatori hanno analizzato 900 discussioni di matematica delle scuole superiori confrontandole con benchmark valutati da umani, utilizzando modelli di OpenAI e Google. Hanno scoperto che il campionamento della temperatura migliora l'accuratezza rispetto agli approcci deterministici, ma l'espansione dell'ensemble da 1 a 7 non ha prodotto miglioramenti notevoli. Un aumento dello sforzo di ragionamento è correlato positivamente con l'accuratezza della valutazione, sebbene i vantaggi differissero tra le famiglie di modelli. Un'analisi della frontiera dell'efficienza ha individuato Gemini 3.1 Pro Preview come l'opzione più accurata ma costosa a basso ragionamento, mentre GPT-5.4 Nano e Mini, senza ragionamento, hanno offerto il miglior rapporto costo-prestazioni.
Fatti principali
- Sono stati esaminati autoconsistenza e sforzo di ragionamento per la valutazione di item di valutazione basati su conversazioni in matematica delle scuole superiori.
- Sono state valutate 900 conversazioni studentesche rispetto a verità di base valutate da umani.
- Sono stati utilizzati modelli di OpenAI e Google.
- Il campionamento della temperatura ha migliorato significativamente l'accuratezza rispetto alle chiamate deterministiche.
- L'aumento della dimensione dell'ensemble da j=1 a 7 non ha prodotto guadagni significativi.
- Un maggiore sforzo di ragionamento ha mostrato una tendenza lineare positiva significativa con l'accuratezza della valutazione.
- Il beneficio dello sforzo di ragionamento variava in base alla famiglia di modelli.
- Gemini 3.1 Pro Preview a basso ragionamento era il più accurato ma costoso; GPT-5.4 Nano e Mini senza ragionamento offrivano il miglior equilibrio costo-prestazioni.
Entità
Istituzioni
- OpenAI