ARTFEED — Contemporary Art Intelligence

Attacco di Hijacking Semantico Sfrutta Agenti AI più Intelligenti

ai-technology · 2026-05-20

Un nuovo studio rivela che i sistemi multi-agente che utilizzano modelli linguistici di grandi dimensioni (LLM) diventano meno sicuri man mano che i loro singoli agenti diventano più capaci. I ricercatori hanno identificato l'"hijacking semantico", un attacco in cui richieste dannose sono nascoste all'interno di narrazioni specifiche del dominio e passate dagli agenti Worker a un agente Manager senza iniezione sintattica. In 42.000 prove avversarie su 12 modelli Manager e 7 configurazioni Worker, il tasso medio di successo dell'attacco (ASR) a livello di sistema è aumentato dal 18,4% al 63,9% all'aumentare della capacità dei Worker, raggiungendo un picco del 94,4%. L'analisi di mediazione multilivello su 47.807 interazioni provenienti da due dataset ha mostrato che questo paradosso è guidato dalla "certezza linguistica": Worker più forti interpretano le narrazioni avversarie come legittime e trasmettono le conclusioni in modo più assertivo. Lo studio è pubblicato su arXiv (2605.17480).

Fatti principali

  • I sistemi multi-agente estendono gli LLM scomponendo i compiti tra agenti specializzati.
  • L'hijacking semantico nasconde richieste dannose in narrazioni specifiche del dominio.
  • L'attacco non richiede primitive di iniezione sintattica.
  • 42.000 prove avversarie condotte su 12 modelli Manager e 7 configurazioni Worker.
  • L'ASR medio è aumentato dal 18,4% al 63,9% all'aumentare della capacità dei Worker.
  • Il picco di ASR ha raggiunto il 94,4%.
  • Analisi di mediazione multilivello eseguita su 47.807 interazioni da due dataset.
  • Worker più forti mostrano una maggiore certezza linguistica, interpretando le narrazioni avversarie come legittime.

Entità

Istituzioni

  • arXiv

Fonti