Riciclaggio della Memoria: Tossicità Nascosta nella Memoria degli Agenti LLM

ai-technology · 2026-05-20

Un nuovo studio di arXiv (2605.16746) identifica una modalità di fallimento negli agenti LLM con memoria aumentata chiamata 'riciclaggio della memoria', in cui il contesto tossico o avversario viene compresso in riassunti di memoria che eludono i rilevatori standard di tossicità preservando al contempo l'inquadramento ostile. Utilizzando rollout multi-agente controfattuali accoppiati, i ricercatori mostrano che tali riassunti rimangono al di sotto delle soglie comuni ma aumentano la tossicità a valle rispetto ai basi neutri. Introducono la metrica del divario di propagazione sotto-soglia (SPG) per quantificare questa influenza nascosta. Il lavoro evidenzia che la sicurezza negli agenti con stato persistente dipende non solo dagli output ma anche dalla memoria memorizzata e riutilizzata.

Fatti principali

Il paper arXiv 2605.16746 studia il riciclaggio della memoria negli agenti LLM
Il contesto tossico può essere compresso in riassunti di memoria che eludono i rilevatori
I riassunti di memoria al di sotto delle soglie di tossicità aumentano comunque la tossicità a valle
Il divario di propagazione sotto-soglia (SPG) misura l'influenza nascosta
La sicurezza dipende da ciò che gli agenti memorizzano e riutilizzano, non solo dagli output

Riciclaggio della Memoria: Tossicità Nascosta nella Memoria degli Agenti LLM

Fatti principali

Entità

Istituzioni

Fonti