Il Fine-Tuning Benigno Distrugge l'Allineamento di Sicurezza nei Modelli di Guardia
Una recente indagine indica che il fine-tuning dei modelli di guardia esclusivamente su dati innocui può compromettere gravemente il loro allineamento di sicurezza. I ricercatori hanno evidenziato questo problema su tre classificatori di sicurezza—LlamaGuard, WildGuard e Granite Guardian—integrati come strati protettivi nei sistemi AI agentici. Il fallimento deriva dalla distruzione della geometria latente di sicurezza, che definisce il confine rappresentazionale tra dannoso e benigno essenziale per la classificazione. Utilizzando SVD sulle differenze di attivazione condizionate alla classe, hanno identificato sottospazi di sicurezza per strato e monitorato i cambiamenti del confine durante il fine-tuning benigno. Granite Guardian ha subito un collasso totale, con il suo tasso di rifiuto precipitato dall'85% allo 0%, il CKA sceso a zero e il 100% degli output diventati ambigui. Questo livello di gravità supera i risultati precedenti sui LLM generici, attribuito all'ipotesi di specializzazione: mentre le rappresentazioni di sicurezza concentrate sono efficaci, sono anche delicate.
Fatti principali
- Il fine-tuning su dati benigni può distruggere l'allineamento di sicurezza nei modelli di guardia.
- Tre modelli di guardia testati: LlamaGuard, WildGuard, Granite Guardian.
- Il tasso di rifiuto di Granite Guardian è sceso dall'85% allo 0%.
- La similarità CKA è scesa a zero per Granite Guardian.
- Il 100% degli output di Granite Guardian è diventato ambiguo.
- Il fallimento origina dalla distruzione della geometria latente di sicurezza.
- I ricercatori hanno utilizzato SVD sulle differenze di attivazione condizionate alla classe.
- Ipotesi di specializzazione: le rappresentazioni di sicurezza concentrate sono efficienti ma fragili.
Entità
—