Attacco Trojan Hippo sfrutta la memoria degli LLM per il furto di dati
Un nuovo studio ha identificato l'attacco Trojan Hippo, un tipo di attacco persistente alla memoria mirato agli agenti LLM. A differenza delle precedenti tecniche di avvelenamento della memoria, questo attacco utilizza un modello di minaccia più plausibile: un attaccante incorpora un payload nascosto nella memoria a lungo termine di un agente attraverso una singola chiamata a uno strumento non affidabile, come un'email manipolata. Questo payload si attiva quando l'utente discute di argomenti sensibili come finanza, salute o identità, consentendo all'attaccante di estrarre preziose informazioni personali. Sebbene siano emerse prove aneddotiche contro i sistemi esistenti, ricerche precedenti non hanno esaminato a fondo questi attacchi attraverso varie architetture di memoria e difese. I ricercatori presentano un framework di valutazione dinamico, con un benchmark di red-teaming adattivo basato su OpenEvolve per testare rigorosamente le difese e i backend di memoria. Questa ricerca è disponibile su arXiv con l'identificatore 2605.01970.
Fatti principali
- L'attacco Trojan Hippo è una classe di attacchi persistenti alla memoria su agenti LLM.
- L'attacco inserisce un payload dormiente tramite una singola chiamata a uno strumento non affidabile (es. email manipolata).
- Il payload si attiva quando l'utente discute di argomenti sensibili (finanza, salute, identità).
- L'attacco esfiltra dati personali di alto valore all'attaccante.
- I lavori precedenti mancavano di una valutazione sistematica attraverso architetture di memoria e difese.
- Il nuovo framework di valutazione dinamico include un benchmark di red-teaming adattivo basato su OpenEvolve.
- Ricerca pubblicata su arXiv (2605.01970).
- L'attacco opera sotto un modello di minaccia più realistico rispetto al precedente avvelenamento della memoria.
Entità
Istituzioni
- arXiv