ARTFEED — Contemporary Art Intelligence

Rischi di sicurezza longitudinali negli agenti LLM dotati di memoria

ai-technology · 2026-05-20

Uno studio recente pubblicato su arXiv (2605.17830) scopre una nuova modalità di fallimento denominata contaminazione temporale della memoria negli agenti LLM che utilizzano la memoria. Questa ricerca si discosta dalle valutazioni di sicurezza tradizionali, che tipicamente si concentrano sulla sicurezza all'interno del compito in scenari avversari come l'iniezione di prompt o l'avvelenamento della memoria. Invece, indaga come il profilo di sicurezza di un agente evolve man mano che la memoria si accumula attraverso numerosi compiti indipendenti per periodi prolungati. Gli autori propongono un protocollo trigger-sonda per valutare un insieme coerente di sonde su snapshot di memoria in sola lettura a diverse lunghezze di prefisso, insieme a una baseline controfattuale NullMemory per differenziare l'esposizione della memoria dalla non stazionarietà del flusso. I risultati indicano che i ricordi di compiti precedenti possono influenzare i comportamenti in compiti successivi non correlati, evidenziando rischi trascurati dalle valutazioni a scenario singolo.

Fatti principali

  • Articolo arXiv 2605.17830
  • Agenti LLM dotati di memoria
  • Modalità di fallimento: contaminazione temporale della memoria
  • Protocollo trigger-sonda
  • Baseline controfattuale NullMemory
  • Sicurezza all'interno del compito vs. sicurezza tra compiti
  • Valutazione longitudinale tra compiti
  • Iniezione di prompt e avvelenamento della memoria come condizioni avversarie

Entità

Istituzioni

  • arXiv

Fonti