Metodo di Jailbreak RL Guidato dall'Attenzione Prende di Mira i Grandi Modelli di Ragionamento
Un nuovo studio rivela che i Grandi Modelli di Ragionamento (LRM) sono più vulnerabili agli attacchi di jailbreak rispetto ai LLM standard a causa del loro ragionamento interno esposto. I ricercatori hanno scoperto che il successo dell'attacco è correlato ai pattern di attenzione: i jailbreak riusciti assegnano una minore attenzione ai token di input dannosi, ma una maggiore attenzione a essi nel contenuto di ragionamento. Propongono un metodo di jailbreak basato sull'apprendimento per rinforzo che incorpora segnali di attenzione nella funzione di ricompensa per aumentare l'efficacia dell'attacco.
Fatti principali
- Gli LRM generano contenuti di ragionamento strutturati e passo-passo.
- Gli LRM sono più vulnerabili agli attacchi di jailbreak rispetto ai LLM standard.
- Il tasso di successo dell'attacco è correlato ai pattern di attenzione degli LRM.
- I jailbreak riusciti assegnano una minore attenzione ai token dannosi nei prompt di input.
- I jailbreak riusciti assegnano una maggiore attenzione ai token dannosi nel contenuto di ragionamento.
- Il metodo proposto utilizza l'apprendimento per rinforzo con ricompensa guidata dall'attenzione.
- Il metodo introduce prompt diversi per la generazione di attacchi.
- Lo studio è stato pubblicato su arXiv con ID 2605.19485.
Entità
Istituzioni
- arXiv