La catena di pensiero interrompe il controllo del rifiuto nei modelli di ragionamento
Un recente studio pubblicato su arXiv (2605.26772) indica che il ragionamento a catena di pensiero (CoT) nei grandi modelli di ragionamento (LRM) rende il controllo del rifiuto più difficile. Nel caso di DeepSeek-R1-Distill-LLaMA-8B, quando il CoT è fisso, lo steering dell'attivazione inverte il rifiuto solo nel 39% dei casi; tuttavia, eliminando il CoT, questo tasso sale al 70%. Implementando un intervento in due fasi che consente al modello di rigenerare il CoT durante lo steering, si ottiene un'inversione del rifiuto del 94%. Inoltre, il CoT generato mantiene il 48% del suo effetto anche dopo la rimozione dello steering, suggerendo che il CoT può segnalare autonomamente la conformità. A differenza degli LLM ottimizzati per istruzioni, in cui il rifiuto è gestito da un singolo sottospazio direzionale, gli LRM codificano il rifiuto collettivamente all'interno del CoT e delle attivazioni del modello.
Fatti principali
- Articolo arXiv 2605.26772
- Modello DeepSeek-R1-Distill-LLaMA-8B
- Lo steering dell'attivazione inverte il rifiuto nel 39% dei casi con CoT fisso
- La rimozione del CoT aumenta l'inversione del rifiuto al 70%
- L'intervento in due fasi raggiunge il 94% di inversione del rifiuto
- Il CoT risultante da solo mantiene il 48% dell'effetto dopo la rimozione dello steering
- Il CoT può trasportare autonomamente segnali di conformità
- Il rifiuto negli LRM è codificato congiuntamente nel CoT e nelle attivazioni
Entità
Istituzioni
- arXiv