ThinkSafe: Allineamento di Sicurezza Auto-Generato per Modelli di Ragionamento
Un nuovo framework chiamato ThinkSafe è stato sviluppato da ricercatori per migliorare la sicurezza nei grandi modelli di ragionamento (LRM) senza la necessità di modelli insegnante esterni. Questi LRM utilizzano l'apprendimento per rinforzo per compiti di ragionamento, producendo estese catene di pensiero (CoT), ma spesso danno eccessiva priorità alla conformità, il che può renderli suscettibili a prompt dannosi. I metodi attuali che impiegano la distillazione da insegnante esterno creano un divario distribuzionale che mina il ragionamento nativo. Il team di ricerca definisce il riallineamento della sicurezza come una proiezione KL su un simplesso sicuro, dimostrando che l'obiettivo ottimale per la distribuzione filtrata per la sicurezza dello studente è unico, mentre qualsiasi insegnante esterno comporta una penalità KL inevitabile. ThinkSafe sfrutta l'idea che i modelli possono ancora riconoscere il danno nonostante la conformità attenui le misure di sicurezza. Il paper è disponibile su arXiv con ID 2601.23143.
Fatti principali
- ThinkSafe è un framework di allineamento auto-generato per LRM
- Ripristina la sicurezza senza insegnanti esterni
- Gli LRM usano RL su compiti di ragionamento per generare lunghe catene di pensiero
- L'eccessiva ottimizzazione per la conformità rende i modelli vulnerabili a prompt dannosi
- La distillazione da insegnante esterno causa una discrepanza distribuzionale che degrada il ragionamento
- Il riallineamento della sicurezza è formalizzato come proiezione KL sul simplesso sicuro
- La distribuzione filtrata per la sicurezza dello studente è l'unico obiettivo KL-ottimale
- Un insegnante esterno comporta una penalità KL eccessiva irriducibile
- I modelli mantengono conoscenza latente per identificare il danno nonostante la soppressione della conformità
- Paper disponibile su arXiv: 2601.23143
Entità
Istituzioni
- arXiv