L'attacco HiSPA espone la vulnerabilità dei modelli linguistici Mamba
Un nuovo studio introduce gli attacchi di avvelenamento degli stati nascosti (HiSPA), rivelando che i modelli a spazio di stati (SSM) come Mamba sono vulnerabili ad attacchi avversari che inducono un'amnesia parziale sovrascrivendo gli stati nascosti con brevi frasi di input. I ricercatori hanno sviluppato RoBench-25, un benchmark per valutare il recupero di informazioni sotto HiSPA, confermando la suscettibilità degli SSM. Anche il modello ibrido Jamba-1.7-Mini (52B parametri) collassa su RoBench-25 sotto determinati trigger, mentre i puri Transformers rimangono inalterati. I trigger HiSPA indeboliscono anche Jamba sul benchmark Open-Prompt-Injections. L'articolo evidenzia critiche lacune di robustezza negli SSM rispetto ai Transformers.
Fatti principali
- Gli attacchi HiSPA inducono un'amnesia parziale negli SSM sovrascrivendo gli stati nascosti
- Il benchmark RoBench-25 valuta la vulnerabilità del modello a HiSPA
- Jamba-1.7-Mini (52B ibrido) collassa sotto i trigger HiSPA
- I puri Transformers non sono influenzati da HiSPA
- HiSPA indebolisce Jamba sul benchmark Open-Prompt-Injections
- Gli SSM come Mamba hanno complessità temporale lineare ma mancano di robustezza avversaria
- Studio pubblicato su arXiv (2601.01972v4)
- La ricerca esplora aspetti teorici dell'attacco
Entità
Istituzioni
- arXiv