La regolarizzazione del collo di bottiglia di sicurezza difende i LLM dal fine-tuning dannoso
Un nuovo approccio chiamato Safety Bottleneck Regularization (SBR) è progettato per affrontare la vulnerabilità dei Large Language Models (LLM) al fine-tuning dannoso (HFT). I metodi esistenti che limitano parametri o gradienti possono essere aggirati a causa della ridondanza negli spazi ad alta dimensionalità, consentendo agli aggressori di ripristinare capacità dannose. SBR si concentra sul layer di unembedding, che funge da collo di bottiglia geometrico, collegando gli ultimi stati nascosti provenienti da input dannosi a quelli di un modello allineato alla sicurezza. I test mostrano che SBR mantiene efficacemente risposte sicure, anche quando l'HFT è ancora in corso.
Fatti principali
- 1. SBR prende di mira il layer di unembedding come collo di bottiglia geometrico.
- 2. Le difese esistenti vengono aggirate tramite traiettorie di ottimizzazione ortogonali.
- 3. La ridondanza dello spazio parametrico ad alta dimensionalità consente attacchi HFT.
- 4. SBR ancora gli stati nascosti delle query dannose agli stati del modello allineato alla sicurezza.
- 5. Gli esperimenti confermano l'efficacia di SBR sotto HFT persistente.
- 6. L'articolo è disponibile su arXiv con ID 2605.05995.
- 7. SBR è una tecnica di regolarizzazione per l'allineamento alla sicurezza dei LLM.
- 8. La difesa non si basa su vincoli di parametri o gradienti.
Entità
Istituzioni
- arXiv