L'attacco di redistribuzione dell'attenzione bypassa l'allineamento di sicurezza dei LLM

ai-technology · 2026-05-04

I ricercatori hanno introdotto un metodo innovativo chiamato Attention Redistribution Attack (ARA) che sfrutta le vulnerabilità di sicurezza dei grandi modelli linguistici manipolando i loro sistemi di attenzione. Questa tecnica identifica i testine di attenzione cruciali per la sicurezza e crea token avversari che reindirizzano l'attenzione lontano dalle aree sensibili, utilizzando un approccio di ottimizzazione Gumbel-softmax. A differenza dei precedenti metodi di jailbreak che operavano a livello semantico, ARA raggiunge tassi di successo notevoli con un numero minimo di token e passi di ottimizzazione. Testato su modelli come LLaMA-3-8B-Instruct e Mistral-7B-Instruct-v0.1, bypassa efficacemente le misure di sicurezza utilizzando solo 5 token e 500 passi, raggiungendo un successo del 36% su Mistral-7B. La ricerca completa è disponibile su arXiv con l'identificatore 2605.00236.

Fatti principali

ARA è un attacco avversario white-box che mira ai testine di attenzione critici per la sicurezza.
Utilizza token avversari non semantici per reindirizzare l'attenzione lontano dalle posizioni rilevanti per la sicurezza.
L'attacco opera sulla geometria dell'attenzione softmax utilizzando l'ottimizzazione Gumbel-softmax.
Testato su LLaMA-3-8B-Instruct, Mistral-7B-Instruct-v0.1 e Gemma-2-9B-it.
Raggiunge un ASR del 36% su Mistral-7B e del 30% su LLaMA-3 contro 200 prompt di HarmBench.
Gemma-2 rimane all'1% di ASR.
Richiede solo 5 token e 500 passi di ottimizzazione.
L'articolo è su arXiv con ID 2605.00236.

L'attacco di redistribuzione dell'attenzione bypassa l'allineamento di sicurezza dei LLM

Fatti principali

Entità

Istituzioni

Fonti