SafeRedirect: Nuova Difesa contro il Collasso Interno della Sicurezza nei LLM
Una nuova soluzione chiamata SafeRedirect è stata introdotta dai ricercatori per affrontare il Collasso Interno della Sicurezza (ISC) nei LLM avanzati. L'ISC porta a un tasso di fallimento superiore al 95% nella produzione di contenuti dannosi durante attività legittime. Le difese attuali a livello di input sono inefficaci e i prompt di sistema forniscono un sollievo limitato. SafeRedirect modifica il focus del compito del modello permettendogli di fallire intenzionalmente, implementando un output di arresto definitivo e dirigendo il modello a lasciare irrisolti i placeholder dannosi. I test su sette LLM all'avanguardia in tre categorie di compiti ISC in scenari a turno singolo hanno mostrato che SafeRedirect riduce significativamente i tassi di generazione non sicura dal 71,2% all'8,0%, superando la migliore baseline esistente del 55,0%. Il documento completo è disponibile su arXiv.
Fatti principali
- 1. Il Collasso Interno della Sicurezza (ISC) è una modalità di fallimento nei LLM di frontiera.
- 2. L'ISC causa tassi di fallimento della sicurezza superiori al 95% durante l'esecuzione di compiti legittimi che richiedono contenuti dannosi.
- 3. Le difese esistenti a livello di input raggiungono un tasso di fallimento del 100% contro l'ISC.
- 4. Le difese standard con prompt di sistema forniscono solo una mitigazione parziale.
- 5. SafeRedirect è un override a livello di sistema che sconfigge l'ISC.
- 6. SafeRedirect concede il permesso esplicito di fallire il compito.
- 7. SafeRedirect prescrive un output di arresto deterministico.
- 8. SafeRedirect istruisce il modello a preservare i placeholder dannosi irrisolti.
- 9. Valutato su sette LLM di frontiera in tre tipi di compiti ISC correlati a AI/ML.
- 10. SafeRedirect riduce i tassi medi di generazione non sicura dal 71,2% all'8,0%.
- 11. La baseline più forte raggiunge un tasso di generazione non sicura del 55,0%.
- 12. Documento pubblicato su arXiv con ID 2604.20930.
Entità
Istituzioni
- arXiv