Attacchi di Avvelenamento della Terminazione Sfruttano i Cicli degli Agenti LLM
Un nuovo articolo su arXiv (2605.05846) identifica una vulnerabilità critica negli agenti LLM che operano in cicli di esecuzione iterativi. I ricercatori definiscono 'Avvelenamento della Terminazione' come un attacco in cui prompt malevoli distorcono l'autovalutazione di un agente, facendogli credere che un compito sia incompleto e portando a un calcolo illimitato. Lo studio progetta 10 strategie di attacco rappresentative e le testa su 8 agenti LLM e 60 compiti. I risultati mostrano firme comportamentali distinte in diversi agenti che determinano il successo dell'attacco, offrendo pattern trasferibili per creare attacchi contro agenti sconosciuti. Il lavoro evidenzia un rischio sistemico nelle architetture di agenti autonomi.
Fatti principali
- L'articolo arXiv 2605.05846 definisce gli attacchi di Avvelenamento della Terminazione sugli agenti LLM
- Gli attacchi sfruttano cicli di esecuzione iterativi in cui gli agenti ragionano, agiscono e si autovalutano
- Prompt malevoli possono distorcere il giudizio di terminazione, causando calcolo illimitato
- Sono state progettate 10 strategie di attacco rappresentative
- Lo studio empirico ha coperto 8 agenti LLM e 60 compiti
- Diversi agenti mostrano firme comportamentali distinte che influenzano il successo dell'attacco
- Pattern trasferibili possono guidare attacchi su agenti sconosciuti
- La vulnerabilità è intrinseca alle architetture a ciclo autodiretto
Entità
Istituzioni
- arXiv