Attacco di Hijacking Semantico Sfrutta Agenti AI più Intelligenti
Un nuovo studio rivela che i sistemi multi-agente che utilizzano modelli linguistici di grandi dimensioni (LLM) diventano meno sicuri man mano che i loro singoli agenti diventano più capaci. I ricercatori hanno identificato l'"hijacking semantico", un attacco in cui richieste dannose sono nascoste all'interno di narrazioni specifiche del dominio e passate dagli agenti Worker a un agente Manager senza iniezione sintattica. In 42.000 prove avversarie su 12 modelli Manager e 7 configurazioni Worker, il tasso medio di successo dell'attacco (ASR) a livello di sistema è aumentato dal 18,4% al 63,9% all'aumentare della capacità dei Worker, raggiungendo un picco del 94,4%. L'analisi di mediazione multilivello su 47.807 interazioni provenienti da due dataset ha mostrato che questo paradosso è guidato dalla "certezza linguistica": Worker più forti interpretano le narrazioni avversarie come legittime e trasmettono le conclusioni in modo più assertivo. Lo studio è pubblicato su arXiv (2605.17480).
Fatti principali
- I sistemi multi-agente estendono gli LLM scomponendo i compiti tra agenti specializzati.
- L'hijacking semantico nasconde richieste dannose in narrazioni specifiche del dominio.
- L'attacco non richiede primitive di iniezione sintattica.
- 42.000 prove avversarie condotte su 12 modelli Manager e 7 configurazioni Worker.
- L'ASR medio è aumentato dal 18,4% al 63,9% all'aumentare della capacità dei Worker.
- Il picco di ASR ha raggiunto il 94,4%.
- Analisi di mediazione multilivello eseguita su 47.807 interazioni da due dataset.
- Worker più forti mostrano una maggiore certezza linguistica, interpretando le narrazioni avversarie come legittime.
Entità
Istituzioni
- arXiv