MemAudit: Framework Post-hoc Rileva Memoria Avvelenata degli Agenti tramite Attribuzione Causale
I ricercatori propongono MemAudit, un framework post-hoc di audit causale della memoria per agenti basati su grandi modelli linguistici (LLM) che utilizzano memoria persistente. Il framework affronta una vulnerabilità di sicurezza in cui utenti malevoli possono iniettare record dannosi nella memoria dell'agente attraverso interazioni ordinarie, che successivamente influenzano il ragionamento e le azioni. Le difese esistenti si concentrano sull'intervento online (ad esempio, filtraggio dei prompt, blocco dell'output) ma non identificano quali memorie memorizzate hanno causato comportamenti dannosi a posteriori. MemAudit combina due segnali: un punteggio di influenza della memoria controfattuale che misura il contributo causale di ciascuna memoria agli output dannosi, e il rilevamento di anomalie strutturali. L'articolo è pubblicato su arXiv (2605.23723).
Fatti principali
- MemAudit è un framework post-hoc di audit causale della memoria per agenti LLM con memoria aumentata.
- Affronta la vulnerabilità di sicurezza dovuta all'iniezione di memoria malevola.
- Combina punteggio di influenza della memoria controfattuale e rilevamento di anomalie strutturali.
- Le difese esistenti offrono solo intervento online, non attribuzione post-hoc.
- Articolo pubblicato su arXiv con ID 2605.23723.
Entità
Istituzioni
- arXiv