ARTFEED — Contemporary Art Intelligence

RouteHijack: Nuovo attacco contro la sicurezza dei modelli MoE

ai-technology · 2026-05-07

I ricercatori hanno sviluppato RouteHijack, un nuovo attacco avversario mirato ai modelli linguistici di grandi dimensioni basati su Mixture-of-Experts (MoE). A differenza dei metodi precedenti che si basano sull'ingegneria dei prompt o sull'accesso interno al modello, RouteHijack sfrutta il meccanismo di routing unico delle architetture MoE. L'attacco funziona ottimizzando i token di input per influenzare quali esperti vengono attivati, indirizzando il modello verso output non sicuri. L'intuizione chiave è che il comportamento legato alla sicurezza è concentrato in un piccolo sottoinsieme di esperti, rendendo i modelli MoE vulnerabili alla manipolazione del routing. RouteHijack prima esegue un'analisi delle risposte per identificare gli esperti critici per la sicurezza, poi crea input che li bypassano. Questo approccio supera i limiti dei jailbreak esistenti, che sono euristici, richiedono accesso privilegiato o falliscono a causa del routing non differenziabile. L'articolo, pubblicato su arXiv (2605.02946), evidenzia una sfida fondamentale per la sicurezza man mano che i modelli MoE diventano più diffusi.

Fatti principali

  • RouteHijack è un jailbreak consapevole del routing per i modelli MoE
  • Sfrutta la concentrazione del comportamento di sicurezza in un sottoinsieme di esperti
  • L'attacco utilizza l'ottimizzazione degli input per influenzare le decisioni di routing
  • Supera i limiti dei metodi basati su prompt e interventi sul modello
  • L'articolo è pubblicato su arXiv con ID 2605.02946
  • Le architetture MoE sono sempre più adottate per scalare la capacità del modello
  • L'allineamento alla sicurezza è fondamentale per un'implementazione responsabile dei LLM
  • Gli attacchi esistenti sono euristici, richiedono accesso privilegiato o falliscono a causa del routing non differenziabile

Entità

Istituzioni

  • arXiv

Fonti