Il ragionamento a catena di pensiero fallisce il test di fedeltà introspettiva nei LLM
Una recente indagine pubblicata su arXiv esamina se il ragionamento a catena di pensiero (CoT) nei grandi modelli linguistici rispecchi accuratamente il loro processo decisionale interno quando si trovano ad affrontare conoscenze contrastanti. Lo studio introduce il termine fedeltà introspettiva e lo valuta utilizzando 200 domande, 8 modelli e 4 diverse condizioni di prompt. I risultati indicano che il ragionamento CoT rimane notevolmente coerente attraverso decisioni contraddittorie, con coppie di flip che mantengono una similarità del 96% nelle risposte. Tuttavia, la fiducia autovalutata mostra un leggero segnale autentico: per fatti meno noti in cui l'importanza dell'entità non è utile, la fiducia influenza ancora le decisioni (p<0,001) e correla con la conoscenza a livello di elemento (r=0,134). GPT-4o si distingue come l'unico modello con una connessione statisticamente significativa tra ragionamento e processo decisionale. Claude Sonnet 4.6 mostra la più ampia variazione di fiducia (SD=1,39) ma non mostra quasi alcuna correlazione aggregata. Questa ricerca sottolinea le sfide nell'affidarsi al CoT come rappresentazione fedele del comportamento del modello.
Fatti principali
- Lo studio introduce la fedeltà introspettiva per il ragionamento a catena di pensiero.
- Testato su 200 domande, 8 modelli e 4 condizioni di prompt.
- Il ragionamento CoT mantiene il 96% di similarità nelle risposte nelle coppie di flip.
- La fiducia predice le decisioni per fatti oscuri (p<0,001).
- GPT-4o è l'unico modello con un accoppiamento affidabile tra ragionamento e decisione.
- Claude Sonnet 4.6 ha il range di fiducia più ampio (SD=1,39) ma correlazione aggregata quasi nulla.
- Articolo pubblicato su arXiv con ID 2605.27773.
Entità
Istituzioni
- arXiv