ARTFEED — Contemporary Art Intelligence

Metodo di Jailbreak RL Guidato dall'Attenzione Prende di Mira i Grandi Modelli di Ragionamento

ai-technology · 2026-05-20

Un nuovo studio rivela che i Grandi Modelli di Ragionamento (LRM) sono più vulnerabili agli attacchi di jailbreak rispetto ai LLM standard a causa del loro ragionamento interno esposto. I ricercatori hanno scoperto che il successo dell'attacco è correlato ai pattern di attenzione: i jailbreak riusciti assegnano una minore attenzione ai token di input dannosi, ma una maggiore attenzione a essi nel contenuto di ragionamento. Propongono un metodo di jailbreak basato sull'apprendimento per rinforzo che incorpora segnali di attenzione nella funzione di ricompensa per aumentare l'efficacia dell'attacco.

Fatti principali

  • Gli LRM generano contenuti di ragionamento strutturati e passo-passo.
  • Gli LRM sono più vulnerabili agli attacchi di jailbreak rispetto ai LLM standard.
  • Il tasso di successo dell'attacco è correlato ai pattern di attenzione degli LRM.
  • I jailbreak riusciti assegnano una minore attenzione ai token dannosi nei prompt di input.
  • I jailbreak riusciti assegnano una maggiore attenzione ai token dannosi nel contenuto di ragionamento.
  • Il metodo proposto utilizza l'apprendimento per rinforzo con ricompensa guidata dall'attenzione.
  • Il metodo introduce prompt diversi per la generazione di attacchi.
  • Lo studio è stato pubblicato su arXiv con ID 2605.19485.

Entità

Istituzioni

  • arXiv

Fonti