Nuovo Framework Rileva Ragionamenti Catena-di-Pensiero Infedeli negli LLM
I ricercatori hanno introdotto CIE-Scorer, un framework per rilevare ragionamenti catena-di-pensiero (CoT) infedeli nei modelli linguistici di grandi dimensioni (LLM). Il ragionamento CoT migliora la risoluzione dei problemi, ma le tracce generate potrebbero non riflettere l'effettivo processo decisionale del modello. I rilevatori esistenti si basano su segnali esterni come la plausibilità testuale o la coerenza delle risposte, ignorando il calcolo interno. I metodi di tracciamento dei circuiti forniscono prove interne ma sono costosi per CoT lunghi. CIE-Scorer utilizza un approccio di discrepanza interno-esterno guidato dai circuiti per scalare il rilevamento. Il framework assegna punteggi alle istanze in base all'allineamento tra le tracce di ragionamento e il processo computazionale del modello. Questo lavoro affronta una sfida chiave nell'interpretabilità e affidabilità degli LLM.
Fatti principali
- CIE-Scorer è un framework per il rilevamento dell'infedeltà CoT a livello di istanza.
- Utilizza un punteggio di discrepanza interno-esterno guidato dai circuiti.
- I rilevatori esistenti si basano solo su segnali esterni.
- I metodi di tracciamento dei circuiti sono costosi per CoT lunghi.
- Il framework allinea le tracce di ragionamento con il calcolo del modello.
- Affronta le sfide di scalabilità nel tracciamento dei circuiti.
- La ricerca è pubblicata su arXiv con ID 2605.25603.
- L'articolo è stato annunciato come nuova sottomissione.
Entità
Istituzioni
- arXiv