ARTFEED — Contemporary Art Intelligence

Autoconsistenza e sforzo di ragionamento degli LLM nella valutazione automatica

ai-technology · 2026-05-01

Una recente indagine sulla valutazione automatica con modelli linguistici di grandi dimensioni (LLM) ha rivelato che la scelta strategica dei modelli e la regolazione delle impostazioni di ragionamento superano i metodi di ensemble. I ricercatori hanno analizzato 900 discussioni di matematica delle scuole superiori confrontandole con benchmark valutati da umani, utilizzando modelli di OpenAI e Google. Hanno scoperto che il campionamento della temperatura migliora l'accuratezza rispetto agli approcci deterministici, ma l'espansione dell'ensemble da 1 a 7 non ha prodotto miglioramenti notevoli. Un aumento dello sforzo di ragionamento è correlato positivamente con l'accuratezza della valutazione, sebbene i vantaggi differissero tra le famiglie di modelli. Un'analisi della frontiera dell'efficienza ha individuato Gemini 3.1 Pro Preview come l'opzione più accurata ma costosa a basso ragionamento, mentre GPT-5.4 Nano e Mini, senza ragionamento, hanno offerto il miglior rapporto costo-prestazioni.

Fatti principali

  • Sono stati esaminati autoconsistenza e sforzo di ragionamento per la valutazione di item di valutazione basati su conversazioni in matematica delle scuole superiori.
  • Sono state valutate 900 conversazioni studentesche rispetto a verità di base valutate da umani.
  • Sono stati utilizzati modelli di OpenAI e Google.
  • Il campionamento della temperatura ha migliorato significativamente l'accuratezza rispetto alle chiamate deterministiche.
  • L'aumento della dimensione dell'ensemble da j=1 a 7 non ha prodotto guadagni significativi.
  • Un maggiore sforzo di ragionamento ha mostrato una tendenza lineare positiva significativa con l'accuratezza della valutazione.
  • Il beneficio dello sforzo di ragionamento variava in base alla famiglia di modelli.
  • Gemini 3.1 Pro Preview a basso ragionamento era il più accurato ma costoso; GPT-5.4 Nano e Mini senza ragionamento offrivano il miglior equilibrio costo-prestazioni.

Entità

Istituzioni

  • OpenAI
  • Google

Fonti