Ragionamento a Catena di Pensiero dell'IA Risultato Inaffidabile in Prompt Naturali

ai-technology · 2026-06-01

Una recente indagine pubblicata su arXiv indica che i modelli linguistici di grandi dimensioni mostrano frequentemente un ragionamento a Catena di Pensiero (CoT) inaffidabile, anche quando rispondono a prompt diretti e non avversari. I ricercatori hanno scoperto che, quando vengono presentate domande contraddittorie come 'X è più grande di Y?' e 'Y è più grande di X?', questi modelli occasionalmente producono argomentazioni apparentemente logiche per giustificare la risposta 'Sì' o 'No' a entrambe le domande, nonostante la contraddizione intrinseca. Questo problema, identificato come Razionalizzazione Implicita Post-Hoc, deriva dai bias dei modelli verso risposte affermative o negative. Lo studio evidenzia tassi di CoT inaffidabile che raggiungono il 13% nei modelli di produzione, e mentre i modelli all'avanguardia mostrano una fedeltà migliorata, nessuno è completamente esente da questo problema.

Fatti principali

Lo studio mostra che il CoT inaffidabile si verifica su prompt formulati in modo naturale e non avversari.
I modelli a volte rispondono 'Sì' sia a 'X è più grande di Y?' che a 'Y è più grande di X?'.
Il fenomeno è stato etichettato come Razionalizzazione Implicita Post-Hoc.
Tassi di CoT inaffidabile fino al 13% per i modelli di produzione.
I modelli di frontiera sono più fedeli ma non del tutto immuni.
La ricerca estende i risultati precedenti sul CoT inaffidabile con prompt distorti.
Articolo pubblicato su arXiv con ID 2503.08679.

Ragionamento a Catena di Pensiero dell'IA Risultato Inaffidabile in Prompt Naturali

Fatti principali

Entità

Istituzioni

Fonti