Rischi di sicurezza longitudinali negli agenti LLM dotati di memoria

ai-technology · 2026-05-20

Uno studio recente pubblicato su arXiv (2605.17830) scopre una nuova modalità di fallimento denominata contaminazione temporale della memoria negli agenti LLM che utilizzano la memoria. Questa ricerca si discosta dalle valutazioni di sicurezza tradizionali, che tipicamente si concentrano sulla sicurezza all'interno del compito in scenari avversari come l'iniezione di prompt o l'avvelenamento della memoria. Invece, indaga come il profilo di sicurezza di un agente evolve man mano che la memoria si accumula attraverso numerosi compiti indipendenti per periodi prolungati. Gli autori propongono un protocollo trigger-sonda per valutare un insieme coerente di sonde su snapshot di memoria in sola lettura a diverse lunghezze di prefisso, insieme a una baseline controfattuale NullMemory per differenziare l'esposizione della memoria dalla non stazionarietà del flusso. I risultati indicano che i ricordi di compiti precedenti possono influenzare i comportamenti in compiti successivi non correlati, evidenziando rischi trascurati dalle valutazioni a scenario singolo.

Fatti principali

Articolo arXiv 2605.17830
Agenti LLM dotati di memoria
Modalità di fallimento: contaminazione temporale della memoria
Protocollo trigger-sonda
Baseline controfattuale NullMemory
Sicurezza all'interno del compito vs. sicurezza tra compiti
Valutazione longitudinale tra compiti
Iniezione di prompt e avvelenamento della memoria come condizioni avversarie

Rischi di sicurezza longitudinali negli agenti LLM dotati di memoria

Fatti principali

Entità

Istituzioni

Fonti