RouteHijack: Nuovo attacco contro la sicurezza dei modelli MoE

ai-technology · 2026-05-07

I ricercatori hanno sviluppato RouteHijack, un nuovo attacco avversario mirato ai modelli linguistici di grandi dimensioni basati su Mixture-of-Experts (MoE). A differenza dei metodi precedenti che si basano sull'ingegneria dei prompt o sull'accesso interno al modello, RouteHijack sfrutta il meccanismo di routing unico delle architetture MoE. L'attacco funziona ottimizzando i token di input per influenzare quali esperti vengono attivati, indirizzando il modello verso output non sicuri. L'intuizione chiave è che il comportamento legato alla sicurezza è concentrato in un piccolo sottoinsieme di esperti, rendendo i modelli MoE vulnerabili alla manipolazione del routing. RouteHijack prima esegue un'analisi delle risposte per identificare gli esperti critici per la sicurezza, poi crea input che li bypassano. Questo approccio supera i limiti dei jailbreak esistenti, che sono euristici, richiedono accesso privilegiato o falliscono a causa del routing non differenziabile. L'articolo, pubblicato su arXiv (2605.02946), evidenzia una sfida fondamentale per la sicurezza man mano che i modelli MoE diventano più diffusi.

Fatti principali

RouteHijack è un jailbreak consapevole del routing per i modelli MoE
Sfrutta la concentrazione del comportamento di sicurezza in un sottoinsieme di esperti
L'attacco utilizza l'ottimizzazione degli input per influenzare le decisioni di routing
Supera i limiti dei metodi basati su prompt e interventi sul modello
L'articolo è pubblicato su arXiv con ID 2605.02946
Le architetture MoE sono sempre più adottate per scalare la capacità del modello
L'allineamento alla sicurezza è fondamentale per un'implementazione responsabile dei LLM
Gli attacchi esistenti sono euristici, richiedono accesso privilegiato o falliscono a causa del routing non differenziabile

RouteHijack: Nuovo attacco contro la sicurezza dei modelli MoE

Fatti principali

Entità

Istituzioni

Fonti