I Profili di Incertezza Prevedono l'Accuratezza del Ragionamento dei Modelli Linguistici

other · 2026-05-11

Un nuovo studio su arXiv (2605.07776) introduce i profili di traccia di incertezza per analizzare il ragionamento dei modelli linguistici. I ricercatori trattano le sequenze intermedie di token (tracce Chain-of-Thought) come stati evolutivi del modello, riassumendo ciascuna con caratteristiche come pendenza e linearità. Su cinque modelli linguistici testati su GSM8K e ProntoQA, questi profili prevedono la correttezza della risposta finale con AUROC fino a 0,807, migliorando i lavori precedenti. Utilizzando solo le prime centinaia di token, l'AUROC raggiunge 0,801, consentendo il rilevamento precoce degli errori. Lo studio confronta tracce corrette e errate per comprendere le dinamiche del ragionamento.

Fatti principali

Studio su arXiv (2605.07776) pubblicato nel 2025.
Si concentra sulla quantificazione dell'incertezza nel ragionamento dei modelli linguistici.
Introduce profili di traccia di incertezza che riassumono le caratteristiche delle tracce.
Valutato su cinque modelli linguistici utilizzando i dataset GSM8K e ProntoQA.
Raggiunge AUROC fino a 0,807 per prevedere le risposte corrette.
Rilevamento precoce possibile con AUROC 0,801 utilizzando le prime centinaia di token.
Confronta tracce di ragionamento corrette e errate.
Il ragionamento Chain-of-Thought è anche chiamato scaling al momento del test.

I Profili di Incertezza Prevedono l'Accuratezza del Ragionamento dei Modelli Linguistici

Fatti principali

Entità

Istituzioni

Fonti