Attacco di avvelenamento della memoria dormiente sugli assistenti LLM
È stata scoperta una nuova vulnerabilità di sicurezza nei modelli linguistici di grandi dimensioni (LLM) che utilizzano memoria persistente, consentendo agli assistenti di conservare dati specifici dell'utente attraverso più sessioni. Questa vulnerabilità, denominata 'avvelenamento della memoria dormiente', coinvolge un attaccante che manipola risorse esterne—come documenti, pagine web o repository—per indurre l'assistente a salvare falsi ricordi sull'utente. A differenza degli attacchi tradizionali di iniezione di prompt, questo metodo può rimanere inattivo e riemergere in conversazioni future. La ricerca ha valutato l'intero processo di attacco, verificando se i ricordi contaminati potessero essere memorizzati, recuperati e successivamente influenzare scambi successivi. Negli assistenti LLM con stato, l'aggiunta di ricordi avvelenati ha raggiunto il 99,8% per GPT-5.5 e il 95% per Kimi-K2.6, sottolineando una minaccia significativa per la sicurezza poiché gli LLM adottano sempre più la memoria persistente per una maggiore personalizzazione.
Fatti principali
- L'avvelenamento della memoria dormiente è un attacco ritardato sugli LLM con memoria persistente.
- L'attacco manipola il contesto esterno per memorizzare ricordi falsi sugli utenti.
- A differenza dell'iniezione di prompt, l'attacco può rimanere inattivo tra le conversazioni.
- Valutato sugli assistenti GPT-5.5 e Kimi-K2.6.
- Ricordi avvelenati aggiunti fino al 99,8% su GPT-5.5.
- Ricordi avvelenati aggiunti fino al 95% su Kimi-K2.6.
- La pipeline di attacco include scrittura, recupero e orientamento delle conversazioni.
- La vulnerabilità deriva dalla memoria con stato per la personalizzazione.
Entità
Istituzioni
- arXiv