Il ragionamento a catena di pensiero fallisce il test di fedeltà introspettiva nei LLM

other · 2026-05-28

Una recente indagine pubblicata su arXiv esamina se il ragionamento a catena di pensiero (CoT) nei grandi modelli linguistici rispecchi accuratamente il loro processo decisionale interno quando si trovano ad affrontare conoscenze contrastanti. Lo studio introduce il termine fedeltà introspettiva e lo valuta utilizzando 200 domande, 8 modelli e 4 diverse condizioni di prompt. I risultati indicano che il ragionamento CoT rimane notevolmente coerente attraverso decisioni contraddittorie, con coppie di flip che mantengono una similarità del 96% nelle risposte. Tuttavia, la fiducia autovalutata mostra un leggero segnale autentico: per fatti meno noti in cui l'importanza dell'entità non è utile, la fiducia influenza ancora le decisioni (p<0,001) e correla con la conoscenza a livello di elemento (r=0,134). GPT-4o si distingue come l'unico modello con una connessione statisticamente significativa tra ragionamento e processo decisionale. Claude Sonnet 4.6 mostra la più ampia variazione di fiducia (SD=1,39) ma non mostra quasi alcuna correlazione aggregata. Questa ricerca sottolinea le sfide nell'affidarsi al CoT come rappresentazione fedele del comportamento del modello.

Fatti principali

Lo studio introduce la fedeltà introspettiva per il ragionamento a catena di pensiero.
Testato su 200 domande, 8 modelli e 4 condizioni di prompt.
Il ragionamento CoT mantiene il 96% di similarità nelle risposte nelle coppie di flip.
La fiducia predice le decisioni per fatti oscuri (p<0,001).
GPT-4o è l'unico modello con un accoppiamento affidabile tra ragionamento e decisione.
Claude Sonnet 4.6 ha il range di fiducia più ampio (SD=1,39) ma correlazione aggregata quasi nulla.
Articolo pubblicato su arXiv con ID 2605.27773.

Il ragionamento a catena di pensiero fallisce il test di fedeltà introspettiva nei LLM

Fatti principali

Entità

Istituzioni

Fonti