ARTFEED — Contemporary Art Intelligence

Ricerca Rivela Attacchi a Prompt Congiuntivi nei Sistemi Multi-Agente LLM

ai-technology · 2026-04-22

Un nuovo documento di ricerca identifica vulnerabilità nei sistemi multi-agente LLM attraverso attacchi a prompt congiuntivi. Questi attacchi sfruttano i meccanismi di routing in cui una chiave di attivazione nelle query degli utenti si combina con modelli avversari nascosti in agenti remoti compromessi. A differenza degli studi sulla sicurezza degli agenti singoli, questo approccio prende di mira sistemi in cui interagiscono più agenti. Gli aggressori manipolano solo il posizionamento dei trigger e l'inserimento dei modelli senza alterare i pesi del modello o gli agenti client. La ricerca dimostra che l'ottimizzazione consapevole del routing aumenta significativamente il successo degli attacchi attraverso topologie a stella, a catena e DAG, mantenendo bassi tassi di attivazione falsa. Le difese attuali, inclusi PromptGuard, le varianti di Llama-Guard e i controlli a livello di sistema come le restrizioni degli strumenti, non riescono a prevenire in modo affidabile questi attacchi. Lo studio evidenzia superfici di sicurezza trascurate create dalla segmentazione dei prompt e dal routing inter-agente nelle applicazioni del mondo reale. Pubblicato su arXiv come 2604.16543v1, questa ricerca con annuncio incrociato affronta le lacune nelle valutazioni di sicurezza LLM esistenti.

Fatti principali

  • Gli attacchi a prompt congiuntivi sfruttano i sistemi multi-agente LLM
  • Gli attacchi combinano chiavi di attivazione nelle query degli utenti con modelli avversari nascosti in agenti compromessi
  • Gli aggressori controllano solo il posizionamento dei trigger e l'inserimento dei modelli senza cambiare i pesi del modello
  • L'ottimizzazione consapevole del routing aumenta il successo degli attacchi attraverso topologie a stella, a catena e DAG
  • Le difese esistenti, inclusi PromptGuard e le varianti di Llama-Guard, non riescono a fermare gli attacchi
  • Ricerca pubblicata su arXiv come 2604.16543v1 con tipo di annuncio incrociato
  • Lo studio si concentra su sistemi in cui interagiscono più agenti piuttosto che modelli a agente singolo
  • Superfici di attacco create dalla segmentazione dei prompt e dal routing inter-agente

Entità

Istituzioni

  • arXiv

Fonti