Riciclaggio della Memoria: Tossicità Nascosta nella Memoria degli Agenti LLM
Un nuovo studio di arXiv (2605.16746) identifica una modalità di fallimento negli agenti LLM con memoria aumentata chiamata 'riciclaggio della memoria', in cui il contesto tossico o avversario viene compresso in riassunti di memoria che eludono i rilevatori standard di tossicità preservando al contempo l'inquadramento ostile. Utilizzando rollout multi-agente controfattuali accoppiati, i ricercatori mostrano che tali riassunti rimangono al di sotto delle soglie comuni ma aumentano la tossicità a valle rispetto ai basi neutri. Introducono la metrica del divario di propagazione sotto-soglia (SPG) per quantificare questa influenza nascosta. Il lavoro evidenzia che la sicurezza negli agenti con stato persistente dipende non solo dagli output ma anche dalla memoria memorizzata e riutilizzata.
Fatti principali
- Il paper arXiv 2605.16746 studia il riciclaggio della memoria negli agenti LLM
- Il contesto tossico può essere compresso in riassunti di memoria che eludono i rilevatori
- I riassunti di memoria al di sotto delle soglie di tossicità aumentano comunque la tossicità a valle
- Il divario di propagazione sotto-soglia (SPG) misura l'influenza nascosta
- La sicurezza dipende da ciò che gli agenti memorizzano e riutilizzano, non solo dagli output
Entità
Istituzioni
- arXiv