Metodo di Jailbreak RL Guidato dall'Attenzione Prende di Mira i Grandi Modelli di Ragionamento

ai-technology · 2026-05-20

Un nuovo studio rivela che i Grandi Modelli di Ragionamento (LRM) sono più vulnerabili agli attacchi di jailbreak rispetto ai LLM standard a causa del loro ragionamento interno esposto. I ricercatori hanno scoperto che il successo dell'attacco è correlato ai pattern di attenzione: i jailbreak riusciti assegnano una minore attenzione ai token di input dannosi, ma una maggiore attenzione a essi nel contenuto di ragionamento. Propongono un metodo di jailbreak basato sull'apprendimento per rinforzo che incorpora segnali di attenzione nella funzione di ricompensa per aumentare l'efficacia dell'attacco.

Fatti principali

Gli LRM generano contenuti di ragionamento strutturati e passo-passo.
Gli LRM sono più vulnerabili agli attacchi di jailbreak rispetto ai LLM standard.
Il tasso di successo dell'attacco è correlato ai pattern di attenzione degli LRM.
I jailbreak riusciti assegnano una minore attenzione ai token dannosi nei prompt di input.
I jailbreak riusciti assegnano una maggiore attenzione ai token dannosi nel contenuto di ragionamento.
Il metodo proposto utilizza l'apprendimento per rinforzo con ricompensa guidata dall'attenzione.
Il metodo introduce prompt diversi per la generazione di attacchi.
Lo studio è stato pubblicato su arXiv con ID 2605.19485.

Metodo di Jailbreak RL Guidato dall'Attenzione Prende di Mira i Grandi Modelli di Ragionamento

Fatti principali

Entità

Istituzioni

Fonti