Attacco di Hijacking Semantico Sfrutta Agenti AI più Intelligenti

ai-technology · 2026-05-20

Un nuovo studio rivela che i sistemi multi-agente che utilizzano modelli linguistici di grandi dimensioni (LLM) diventano meno sicuri man mano che i loro singoli agenti diventano più capaci. I ricercatori hanno identificato l'"hijacking semantico", un attacco in cui richieste dannose sono nascoste all'interno di narrazioni specifiche del dominio e passate dagli agenti Worker a un agente Manager senza iniezione sintattica. In 42.000 prove avversarie su 12 modelli Manager e 7 configurazioni Worker, il tasso medio di successo dell'attacco (ASR) a livello di sistema è aumentato dal 18,4% al 63,9% all'aumentare della capacità dei Worker, raggiungendo un picco del 94,4%. L'analisi di mediazione multilivello su 47.807 interazioni provenienti da due dataset ha mostrato che questo paradosso è guidato dalla "certezza linguistica": Worker più forti interpretano le narrazioni avversarie come legittime e trasmettono le conclusioni in modo più assertivo. Lo studio è pubblicato su arXiv (2605.17480).

Fatti principali

I sistemi multi-agente estendono gli LLM scomponendo i compiti tra agenti specializzati.
L'hijacking semantico nasconde richieste dannose in narrazioni specifiche del dominio.
L'attacco non richiede primitive di iniezione sintattica.
42.000 prove avversarie condotte su 12 modelli Manager e 7 configurazioni Worker.
L'ASR medio è aumentato dal 18,4% al 63,9% all'aumentare della capacità dei Worker.
Il picco di ASR ha raggiunto il 94,4%.
Analisi di mediazione multilivello eseguita su 47.807 interazioni da due dataset.
Worker più forti mostrano una maggiore certezza linguistica, interpretando le narrazioni avversarie come legittime.

Attacco di Hijacking Semantico Sfrutta Agenti AI più Intelligenti

Fatti principali

Entità

Istituzioni

Fonti