PropGuard: Nuovo Framework per Proteggere i Sistemi Multi-Agente LLM dalla Propagazione di Istruzioni Maligne
Un nuovo framework di sicurezza chiamato PropGuard è stato proposto per proteggere i sistemi multi-agente basati su LLM (LLM-MAS) da istruzioni maligne che possono propagarsi tra agenti e round. Il framework, descritto in un articolo su arXiv (2605.16346), costruisce un grafo spazio-temporale a doppia vista che combina la stima del rischio incentrata sulla risposta con la conservazione delle prove a stato completo. Utilizza un ispettore addestrato con GE-GRPO per esplorare il grafo a stato completo e recuperare percorsi di propagazione sospetti compatti. Le difese esistenti si basano su filtraggio locale o rilevamento di anomalie basato su grafi, ma non riescono a tracciare la propagazione a grana fine o a rimediare agli stati contaminati senza interrompere la collaborazione. PropGuard colma queste lacune consentendo un'esplorazione e un rimedio consapevoli della propagazione. L'articolo è classificato come annuncio di tipo incrociato.
Fatti principali
- PropGuard è un framework consapevole della propagazione per proteggere LLM-MAS.
- Costruisce un grafo spazio-temporale a doppia vista.
- Il framework utilizza un ispettore addestrato con GE-GRPO.
- Le difese esistenti si basano su filtraggio locale o rilevamento di anomalie basato su grafi.
- PropGuard affronta il tracciamento della propagazione a grana fine e il rimedio degli stati.
- L'articolo è disponibile su arXiv con ID 2605.16346.
- Il tipo di annuncio è incrociato.
- LLM-MAS coinvolgono specializzazione dei ruoli, uso di strumenti, memoria e ragionamento collaborativo.
Entità
Istituzioni
- arXiv