Il Fine-Tuning Benigno Distrugge l'Allineamento di Sicurezza nei Modelli di Guardia

ai-technology · 2026-05-07

Una recente indagine indica che il fine-tuning dei modelli di guardia esclusivamente su dati innocui può compromettere gravemente il loro allineamento di sicurezza. I ricercatori hanno evidenziato questo problema su tre classificatori di sicurezza—LlamaGuard, WildGuard e Granite Guardian—integrati come strati protettivi nei sistemi AI agentici. Il fallimento deriva dalla distruzione della geometria latente di sicurezza, che definisce il confine rappresentazionale tra dannoso e benigno essenziale per la classificazione. Utilizzando SVD sulle differenze di attivazione condizionate alla classe, hanno identificato sottospazi di sicurezza per strato e monitorato i cambiamenti del confine durante il fine-tuning benigno. Granite Guardian ha subito un collasso totale, con il suo tasso di rifiuto precipitato dall'85% allo 0%, il CKA sceso a zero e il 100% degli output diventati ambigui. Questo livello di gravità supera i risultati precedenti sui LLM generici, attribuito all'ipotesi di specializzazione: mentre le rappresentazioni di sicurezza concentrate sono efficaci, sono anche delicate.

Fatti principali

Il fine-tuning su dati benigni può distruggere l'allineamento di sicurezza nei modelli di guardia.
Tre modelli di guardia testati: LlamaGuard, WildGuard, Granite Guardian.
Il tasso di rifiuto di Granite Guardian è sceso dall'85% allo 0%.
La similarità CKA è scesa a zero per Granite Guardian.
Il 100% degli output di Granite Guardian è diventato ambiguo.
Il fallimento origina dalla distruzione della geometria latente di sicurezza.
I ricercatori hanno utilizzato SVD sulle differenze di attivazione condizionate alla classe.
Ipotesi di specializzazione: le rappresentazioni di sicurezza concentrate sono efficienti ma fragili.

Entità

—

Fonti

arXiv cs.AI — 2026-05-06