Architettura di sicurezza a tre livelli richiesta per gli agenti LLM
Un nuovo position paper sostiene che garantire la sicurezza per gli agenti LLM distribuiti richiede un'architettura probabilistica assume-guarantee a tre livelli, non un singolo guardrail. Il documento, pubblicato su arXiv (2605.18672v1), afferma che la sicurezza comprende tre dimensioni distinte—intento semantico e conformità alle politiche, validità ambientale e fattibilità dinamica—ciascuna dipendente dalle informazioni disponibili in diverse fasi di esecuzione. Nessun singolo livello di astrazione può certificare tutte e tre. Gli autori propongono un'architettura basata su contratti in cui ogni dimensione è applicata da un livello certificato indipendentemente, con garanzie probabilistiche che soddisfano le assunzioni del livello successivo. Derivano limiti di sicurezza compositivi a livello di sistema tramite la regola della catena di probabilità. Il documento sostiene che questo requisito strutturale è una conseguenza del funzionamento dell'esecuzione dell'agente, non una limitazione contingente.
Fatti principali
- Il documento sostiene che un singolo livello di astrazione è categoricamente insufficiente per la sicurezza degli agenti LLM.
- Tre dimensioni della sicurezza: intento semantico/conformità alle politiche, validità ambientale, fattibilità dinamica.
- Ogni dimensione dipende dalle informazioni provenienti da diverse fasi di esecuzione.
- Propone un'architettura basata su contratti con livelli certificati indipendentemente.
- Limiti di sicurezza derivati tramite la regola della catena di probabilità.
- Pubblicato su arXiv con ID 2605.18672v1.
- Sostiene la necessità strutturale, non una limitazione contingente.
- Focus sugli agenti LLM distribuiti.
Entità
Istituzioni
- arXiv