Difesa a Colpo Singolo contro Attacchi di Jailbreak a Molti Colpi sui LLM
Uno studio recente pubblicato su arXiv (2605.08277) indica che gli attacchi di jailbreak a molti colpi (MSJ) sui modelli linguistici progettati per la sicurezza diventano più potenti all'aumentare del numero di esempi dannosi, un fenomeno noto come deriva progressiva dell'attivazione. Con l'introduzione di ulteriori dimostrazioni dannose, la rappresentazione di una specifica query dannosa si sposta gradualmente lontano dall'area allineata alla sicurezza. Questa deriva può essere teoricamente interpretata come una forma di messa a punto dannosa implicita, in cui il condizionamento su N esempi dannosi produce aggiornamenti in stile SGD equivalenti all'ottimizzazione su quei N campioni. Questa comprensione trasforma il meccanismo di attacco in una strategia difensiva. Includendo una singola dimostrazione di sicurezza one-shot durante l'inferenza, l'approccio induce un aggiornamento focalizzato sulla sicurezza, migliorando la resilienza del modello contro gli attacchi MSJ.
Fatti principali
- Gli attacchi di jailbreak a molti colpi (MSJ) inducono i modelli linguistici allineati alla sicurezza a rispondere a query dannose precedendole con molte dimostrazioni di domande-risposte dannose.
- L'attacco diventa più forte all'aumentare del numero di dimostrazioni.
- MSJ induce una deriva progressiva dell'attivazione: la rappresentazione di una query dannosa fissa si sposta passo dopo passo lontano dalla regione allineata alla sicurezza.
- La deriva è interpretata come messa a punto dannosa implicita.
- Il condizionamento su N dimostrazioni dannose induce aggiornamenti in stile SGD equivalenti all'ottimizzazione su N campioni dannosi.
- Una dimostrazione di sicurezza one-shot fissa durante l'inferenza induce un aggiornamento orientato alla sicurezza che contrasta la deriva.
- Il metodo ripristina il comportamento di rifiuto e migliora la robustezza del modello.
- Lo studio è pubblicato su arXiv con ID 2605.08277.
Entità
Istituzioni
- arXiv