ARTFEED — Contemporary Art Intelligence

Attacco Trojan Hippo sfrutta la memoria degli LLM per il furto di dati

ai-technology · 2026-05-06

Un nuovo studio ha identificato l'attacco Trojan Hippo, un tipo di attacco persistente alla memoria mirato agli agenti LLM. A differenza delle precedenti tecniche di avvelenamento della memoria, questo attacco utilizza un modello di minaccia più plausibile: un attaccante incorpora un payload nascosto nella memoria a lungo termine di un agente attraverso una singola chiamata a uno strumento non affidabile, come un'email manipolata. Questo payload si attiva quando l'utente discute di argomenti sensibili come finanza, salute o identità, consentendo all'attaccante di estrarre preziose informazioni personali. Sebbene siano emerse prove aneddotiche contro i sistemi esistenti, ricerche precedenti non hanno esaminato a fondo questi attacchi attraverso varie architetture di memoria e difese. I ricercatori presentano un framework di valutazione dinamico, con un benchmark di red-teaming adattivo basato su OpenEvolve per testare rigorosamente le difese e i backend di memoria. Questa ricerca è disponibile su arXiv con l'identificatore 2605.01970.

Fatti principali

  • L'attacco Trojan Hippo è una classe di attacchi persistenti alla memoria su agenti LLM.
  • L'attacco inserisce un payload dormiente tramite una singola chiamata a uno strumento non affidabile (es. email manipolata).
  • Il payload si attiva quando l'utente discute di argomenti sensibili (finanza, salute, identità).
  • L'attacco esfiltra dati personali di alto valore all'attaccante.
  • I lavori precedenti mancavano di una valutazione sistematica attraverso architetture di memoria e difese.
  • Il nuovo framework di valutazione dinamico include un benchmark di red-teaming adattivo basato su OpenEvolve.
  • Ricerca pubblicata su arXiv (2605.01970).
  • L'attacco opera sotto un modello di minaccia più realistico rispetto al precedente avvelenamento della memoria.

Entità

Istituzioni

  • arXiv

Fonti