L'attacco HiSPA espone la vulnerabilità dei modelli linguistici Mamba

ai-technology · 2026-05-16

Un nuovo studio introduce gli attacchi di avvelenamento degli stati nascosti (HiSPA), rivelando che i modelli a spazio di stati (SSM) come Mamba sono vulnerabili ad attacchi avversari che inducono un'amnesia parziale sovrascrivendo gli stati nascosti con brevi frasi di input. I ricercatori hanno sviluppato RoBench-25, un benchmark per valutare il recupero di informazioni sotto HiSPA, confermando la suscettibilità degli SSM. Anche il modello ibrido Jamba-1.7-Mini (52B parametri) collassa su RoBench-25 sotto determinati trigger, mentre i puri Transformers rimangono inalterati. I trigger HiSPA indeboliscono anche Jamba sul benchmark Open-Prompt-Injections. L'articolo evidenzia critiche lacune di robustezza negli SSM rispetto ai Transformers.

Fatti principali

Gli attacchi HiSPA inducono un'amnesia parziale negli SSM sovrascrivendo gli stati nascosti
Il benchmark RoBench-25 valuta la vulnerabilità del modello a HiSPA
Jamba-1.7-Mini (52B ibrido) collassa sotto i trigger HiSPA
I puri Transformers non sono influenzati da HiSPA
HiSPA indebolisce Jamba sul benchmark Open-Prompt-Injections
Gli SSM come Mamba hanno complessità temporale lineare ma mancano di robustezza avversaria
Studio pubblicato su arXiv (2601.01972v4)
La ricerca esplora aspetti teorici dell'attacco

L'attacco HiSPA espone la vulnerabilità dei modelli linguistici Mamba

Fatti principali

Entità

Istituzioni

Fonti