Nuovo Framework Rileva Ragionamenti Catena-di-Pensiero Infedeli negli LLM

other · 2026-05-26

I ricercatori hanno introdotto CIE-Scorer, un framework per rilevare ragionamenti catena-di-pensiero (CoT) infedeli nei modelli linguistici di grandi dimensioni (LLM). Il ragionamento CoT migliora la risoluzione dei problemi, ma le tracce generate potrebbero non riflettere l'effettivo processo decisionale del modello. I rilevatori esistenti si basano su segnali esterni come la plausibilità testuale o la coerenza delle risposte, ignorando il calcolo interno. I metodi di tracciamento dei circuiti forniscono prove interne ma sono costosi per CoT lunghi. CIE-Scorer utilizza un approccio di discrepanza interno-esterno guidato dai circuiti per scalare il rilevamento. Il framework assegna punteggi alle istanze in base all'allineamento tra le tracce di ragionamento e il processo computazionale del modello. Questo lavoro affronta una sfida chiave nell'interpretabilità e affidabilità degli LLM.

Fatti principali

CIE-Scorer è un framework per il rilevamento dell'infedeltà CoT a livello di istanza.
Utilizza un punteggio di discrepanza interno-esterno guidato dai circuiti.
I rilevatori esistenti si basano solo su segnali esterni.
I metodi di tracciamento dei circuiti sono costosi per CoT lunghi.
Il framework allinea le tracce di ragionamento con il calcolo del modello.
Affronta le sfide di scalabilità nel tracciamento dei circuiti.
La ricerca è pubblicata su arXiv con ID 2605.25603.
L'articolo è stato annunciato come nuova sottomissione.

Nuovo Framework Rileva Ragionamenti Catena-di-Pensiero Infedeli negli LLM

Fatti principali

Entità

Istituzioni

Fonti