ARTFEED — Contemporary Art Intelligence

La catena di pensiero interrompe il controllo del rifiuto nei modelli di ragionamento

ai-technology · 2026-05-27

Un recente studio pubblicato su arXiv (2605.26772) indica che il ragionamento a catena di pensiero (CoT) nei grandi modelli di ragionamento (LRM) rende il controllo del rifiuto più difficile. Nel caso di DeepSeek-R1-Distill-LLaMA-8B, quando il CoT è fisso, lo steering dell'attivazione inverte il rifiuto solo nel 39% dei casi; tuttavia, eliminando il CoT, questo tasso sale al 70%. Implementando un intervento in due fasi che consente al modello di rigenerare il CoT durante lo steering, si ottiene un'inversione del rifiuto del 94%. Inoltre, il CoT generato mantiene il 48% del suo effetto anche dopo la rimozione dello steering, suggerendo che il CoT può segnalare autonomamente la conformità. A differenza degli LLM ottimizzati per istruzioni, in cui il rifiuto è gestito da un singolo sottospazio direzionale, gli LRM codificano il rifiuto collettivamente all'interno del CoT e delle attivazioni del modello.

Fatti principali

  • Articolo arXiv 2605.26772
  • Modello DeepSeek-R1-Distill-LLaMA-8B
  • Lo steering dell'attivazione inverte il rifiuto nel 39% dei casi con CoT fisso
  • La rimozione del CoT aumenta l'inversione del rifiuto al 70%
  • L'intervento in due fasi raggiunge il 94% di inversione del rifiuto
  • Il CoT risultante da solo mantiene il 48% dell'effetto dopo la rimozione dello steering
  • Il CoT può trasportare autonomamente segnali di conformità
  • Il rifiuto negli LRM è codificato congiuntamente nel CoT e nelle attivazioni

Entità

Istituzioni

  • arXiv

Fonti