RouteHijack: Nuovo attacco contro la sicurezza dei modelli MoE
I ricercatori hanno sviluppato RouteHijack, un nuovo attacco avversario mirato ai modelli linguistici di grandi dimensioni basati su Mixture-of-Experts (MoE). A differenza dei metodi precedenti che si basano sull'ingegneria dei prompt o sull'accesso interno al modello, RouteHijack sfrutta il meccanismo di routing unico delle architetture MoE. L'attacco funziona ottimizzando i token di input per influenzare quali esperti vengono attivati, indirizzando il modello verso output non sicuri. L'intuizione chiave è che il comportamento legato alla sicurezza è concentrato in un piccolo sottoinsieme di esperti, rendendo i modelli MoE vulnerabili alla manipolazione del routing. RouteHijack prima esegue un'analisi delle risposte per identificare gli esperti critici per la sicurezza, poi crea input che li bypassano. Questo approccio supera i limiti dei jailbreak esistenti, che sono euristici, richiedono accesso privilegiato o falliscono a causa del routing non differenziabile. L'articolo, pubblicato su arXiv (2605.02946), evidenzia una sfida fondamentale per la sicurezza man mano che i modelli MoE diventano più diffusi.
Fatti principali
- RouteHijack è un jailbreak consapevole del routing per i modelli MoE
- Sfrutta la concentrazione del comportamento di sicurezza in un sottoinsieme di esperti
- L'attacco utilizza l'ottimizzazione degli input per influenzare le decisioni di routing
- Supera i limiti dei metodi basati su prompt e interventi sul modello
- L'articolo è pubblicato su arXiv con ID 2605.02946
- Le architetture MoE sono sempre più adottate per scalare la capacità del modello
- L'allineamento alla sicurezza è fondamentale per un'implementazione responsabile dei LLM
- Gli attacchi esistenti sono euristici, richiedono accesso privilegiato o falliscono a causa del routing non differenziabile
Entità
Istituzioni
- arXiv