I Profili di Incertezza Prevedono l'Accuratezza del Ragionamento dei Modelli Linguistici
Un nuovo studio su arXiv (2605.07776) introduce i profili di traccia di incertezza per analizzare il ragionamento dei modelli linguistici. I ricercatori trattano le sequenze intermedie di token (tracce Chain-of-Thought) come stati evolutivi del modello, riassumendo ciascuna con caratteristiche come pendenza e linearità. Su cinque modelli linguistici testati su GSM8K e ProntoQA, questi profili prevedono la correttezza della risposta finale con AUROC fino a 0,807, migliorando i lavori precedenti. Utilizzando solo le prime centinaia di token, l'AUROC raggiunge 0,801, consentendo il rilevamento precoce degli errori. Lo studio confronta tracce corrette e errate per comprendere le dinamiche del ragionamento.
Fatti principali
- Studio su arXiv (2605.07776) pubblicato nel 2025.
- Si concentra sulla quantificazione dell'incertezza nel ragionamento dei modelli linguistici.
- Introduce profili di traccia di incertezza che riassumono le caratteristiche delle tracce.
- Valutato su cinque modelli linguistici utilizzando i dataset GSM8K e ProntoQA.
- Raggiunge AUROC fino a 0,807 per prevedere le risposte corrette.
- Rilevamento precoce possibile con AUROC 0,801 utilizzando le prime centinaia di token.
- Confronta tracce di ragionamento corrette e errate.
- Il ragionamento Chain-of-Thought è anche chiamato scaling al momento del test.
Entità
Istituzioni
- arXiv