Il Framework SAFEDREAM Propone il Rilevamento Anticipato di Jailbreak per LLM
Un nuovo articolo di ricerca introduce SAFEDREAM, un framework progettato per rilevare proattivamente attacchi di jailbreak multi-turn sui grandi modelli linguistici prima che venga generato contenuto dannoso. Il lavoro affronta le limitazioni dei metodi di sicurezza attuali, che spesso richiedono modifiche costose ai pesi del modello, valutano i turni di conversazione in isolamento e identificano gli attacchi solo dopo che si è verificata la conformità. Gli attacchi di jailbreak multi-turn possono raggiungere tassi di successo superiori al 90% erodendo gradualmente l'allineamento di sicurezza di un modello attraverso turni di conversazione apparentemente innocui. La soluzione proposta formula un problema di rilevamento anticipato proattivo utilizzando una nuova metrica chiamata 'detection lead', che misura quanto precocemente un attacco può essere identificato prima della risposta dannosa dell'LLM. SAFEDREAM opera come modulo esterno leggero che evita di alterare i parametri del modello sottostante. La sua architettura include un modello di mondo dello stato di sicurezza che codifica gli stati nascosti dell'LLM in una rappresentazione di sicurezza compatta. Il framework è stato dettagliato in un articolo annunciato su arXiv con l'identificatore 2604.16824v1. Le tecniche esistenti basate sull'allineamento e i metodi di guardrail sono criticati per la loro incapacità di modellare la natura cumulativa dell'erosione della sicurezza attraverso il dialogo.
Fatti principali
- Gli attacchi di jailbreak multi-turn possono superare tassi di successo del 90% contro gli LLM all'avanguardia.
- I metodi di sicurezza esistenti spesso rilevano gli attacchi solo dopo che è stato generato contenuto dannoso.
- SAFEDREAM è proposto come framework esterno leggero per il rilevamento anticipato proattivo.
- Il framework introduce una nuova metrica chiamata 'detection lead' per misurare la capacità di rilevamento anticipato.
- SAFEDREAM opera senza modificare i pesi interni dell'LLM.
- Il framework include un componente di modello di mondo dello stato di sicurezza.
- La ricerca affronta l'erosione cumulativa dell'allineamento di sicurezza attraverso i turni di conversazione.
- L'articolo è stato annunciato su arXiv con l'identificatore 2604.16824v1.
Entità
Istituzioni
- arXiv