ARTFEED — Contemporary Art Intelligence

Nuovo Framework Rileva Ragionamenti Catena-di-Pensiero Infedeli negli LLM

other · 2026-05-26

I ricercatori hanno introdotto CIE-Scorer, un framework per rilevare ragionamenti catena-di-pensiero (CoT) infedeli nei modelli linguistici di grandi dimensioni (LLM). Il ragionamento CoT migliora la risoluzione dei problemi, ma le tracce generate potrebbero non riflettere l'effettivo processo decisionale del modello. I rilevatori esistenti si basano su segnali esterni come la plausibilità testuale o la coerenza delle risposte, ignorando il calcolo interno. I metodi di tracciamento dei circuiti forniscono prove interne ma sono costosi per CoT lunghi. CIE-Scorer utilizza un approccio di discrepanza interno-esterno guidato dai circuiti per scalare il rilevamento. Il framework assegna punteggi alle istanze in base all'allineamento tra le tracce di ragionamento e il processo computazionale del modello. Questo lavoro affronta una sfida chiave nell'interpretabilità e affidabilità degli LLM.

Fatti principali

  • CIE-Scorer è un framework per il rilevamento dell'infedeltà CoT a livello di istanza.
  • Utilizza un punteggio di discrepanza interno-esterno guidato dai circuiti.
  • I rilevatori esistenti si basano solo su segnali esterni.
  • I metodi di tracciamento dei circuiti sono costosi per CoT lunghi.
  • Il framework allinea le tracce di ragionamento con il calcolo del modello.
  • Affronta le sfide di scalabilità nel tracciamento dei circuiti.
  • La ricerca è pubblicata su arXiv con ID 2605.25603.
  • L'articolo è stato annunciato come nuova sottomissione.

Entità

Istituzioni

  • arXiv

Fonti