La catena di pensiero interrompe il controllo del rifiuto nei modelli di ragionamento

ai-technology · 2026-05-27

Un recente studio pubblicato su arXiv (2605.26772) indica che il ragionamento a catena di pensiero (CoT) nei grandi modelli di ragionamento (LRM) rende il controllo del rifiuto più difficile. Nel caso di DeepSeek-R1-Distill-LLaMA-8B, quando il CoT è fisso, lo steering dell'attivazione inverte il rifiuto solo nel 39% dei casi; tuttavia, eliminando il CoT, questo tasso sale al 70%. Implementando un intervento in due fasi che consente al modello di rigenerare il CoT durante lo steering, si ottiene un'inversione del rifiuto del 94%. Inoltre, il CoT generato mantiene il 48% del suo effetto anche dopo la rimozione dello steering, suggerendo che il CoT può segnalare autonomamente la conformità. A differenza degli LLM ottimizzati per istruzioni, in cui il rifiuto è gestito da un singolo sottospazio direzionale, gli LRM codificano il rifiuto collettivamente all'interno del CoT e delle attivazioni del modello.

Fatti principali

Articolo arXiv 2605.26772
Modello DeepSeek-R1-Distill-LLaMA-8B
Lo steering dell'attivazione inverte il rifiuto nel 39% dei casi con CoT fisso
La rimozione del CoT aumenta l'inversione del rifiuto al 70%
L'intervento in due fasi raggiunge il 94% di inversione del rifiuto
Il CoT risultante da solo mantiene il 48% dell'effetto dopo la rimozione dello steering
Il CoT può trasportare autonomamente segnali di conformità
Il rifiuto negli LRM è codificato congiuntamente nel CoT e nelle attivazioni

La catena di pensiero interrompe il controllo del rifiuto nei modelli di ragionamento

Fatti principali

Entità

Istituzioni

Fonti