L'attacco di redistribuzione dell'attenzione bypassa l'allineamento di sicurezza dei LLM
I ricercatori hanno introdotto un metodo innovativo chiamato Attention Redistribution Attack (ARA) che sfrutta le vulnerabilità di sicurezza dei grandi modelli linguistici manipolando i loro sistemi di attenzione. Questa tecnica identifica i testine di attenzione cruciali per la sicurezza e crea token avversari che reindirizzano l'attenzione lontano dalle aree sensibili, utilizzando un approccio di ottimizzazione Gumbel-softmax. A differenza dei precedenti metodi di jailbreak che operavano a livello semantico, ARA raggiunge tassi di successo notevoli con un numero minimo di token e passi di ottimizzazione. Testato su modelli come LLaMA-3-8B-Instruct e Mistral-7B-Instruct-v0.1, bypassa efficacemente le misure di sicurezza utilizzando solo 5 token e 500 passi, raggiungendo un successo del 36% su Mistral-7B. La ricerca completa è disponibile su arXiv con l'identificatore 2605.00236.
Fatti principali
- ARA è un attacco avversario white-box che mira ai testine di attenzione critici per la sicurezza.
- Utilizza token avversari non semantici per reindirizzare l'attenzione lontano dalle posizioni rilevanti per la sicurezza.
- L'attacco opera sulla geometria dell'attenzione softmax utilizzando l'ottimizzazione Gumbel-softmax.
- Testato su LLaMA-3-8B-Instruct, Mistral-7B-Instruct-v0.1 e Gemma-2-9B-it.
- Raggiunge un ASR del 36% su Mistral-7B e del 30% su LLaMA-3 contro 200 prompt di HarmBench.
- Gemma-2 rimane all'1% di ASR.
- Richiede solo 5 token e 500 passi di ottimizzazione.
- L'articolo è su arXiv con ID 2605.00236.
Entità
Istituzioni
- arXiv