ThinkSafe: Allineamento di Sicurezza Auto-Generato per Modelli di Ragionamento

other · 2026-05-14

Un nuovo framework chiamato ThinkSafe è stato sviluppato da ricercatori per migliorare la sicurezza nei grandi modelli di ragionamento (LRM) senza la necessità di modelli insegnante esterni. Questi LRM utilizzano l'apprendimento per rinforzo per compiti di ragionamento, producendo estese catene di pensiero (CoT), ma spesso danno eccessiva priorità alla conformità, il che può renderli suscettibili a prompt dannosi. I metodi attuali che impiegano la distillazione da insegnante esterno creano un divario distribuzionale che mina il ragionamento nativo. Il team di ricerca definisce il riallineamento della sicurezza come una proiezione KL su un simplesso sicuro, dimostrando che l'obiettivo ottimale per la distribuzione filtrata per la sicurezza dello studente è unico, mentre qualsiasi insegnante esterno comporta una penalità KL inevitabile. ThinkSafe sfrutta l'idea che i modelli possono ancora riconoscere il danno nonostante la conformità attenui le misure di sicurezza. Il paper è disponibile su arXiv con ID 2601.23143.

Fatti principali

ThinkSafe è un framework di allineamento auto-generato per LRM
Ripristina la sicurezza senza insegnanti esterni
Gli LRM usano RL su compiti di ragionamento per generare lunghe catene di pensiero
L'eccessiva ottimizzazione per la conformità rende i modelli vulnerabili a prompt dannosi
La distillazione da insegnante esterno causa una discrepanza distribuzionale che degrada il ragionamento
Il riallineamento della sicurezza è formalizzato come proiezione KL sul simplesso sicuro
La distribuzione filtrata per la sicurezza dello studente è l'unico obiettivo KL-ottimale
Un insegnante esterno comporta una penalità KL eccessiva irriducibile
I modelli mantengono conoscenza latente per identificare il danno nonostante la soppressione della conformità
Paper disponibile su arXiv: 2601.23143

ThinkSafe: Allineamento di Sicurezza Auto-Generato per Modelli di Ragionamento

Fatti principali

Entità

Istituzioni

Fonti