RiskGate: Un Framework Basato sulla Viability per Governare Agenti AI Autonomi
C'è un nuovo preprint su arXiv, numero 2604.24686, che introduce il cosiddetto Agent Viability Framework. Questo framework è progettato per monitorare gli agenti AI autonomi durante il loro funzionamento, basandosi sulla teoria della viabilità di Aubin. Evidenzia tre caratteristiche chiave: monitoraggio, anticipazione e restrizione monotona, che aiutano a gestire i rischi noti. Gli autori propongono anche il Principio di Viabilità Informazionale, che stabilisce un limite ai pericoli nascosti utilizzando una formula specifica. Solo quando la capacità supera questo limite, più un margine di sicurezza, è possibile intraprendere azioni. L'implementazione, chiamata RiskGate, utilizza vari metodi statistici e un sistema di fail-safe sicuro per affrontare i problemi di sicurezza negli agenti AI che potrebbero cambiare comportamento o rispondere a minacce senza alcuna modifica del codice.
Fatti principali
- Il preprint arXiv 2604.24686 propone l'Agent Viability Framework per la governance degli agenti AI autonomi.
- Il framework si basa sulla teoria della viabilità di Aubin.
- Sono definite tre proprietà: monitoraggio (P1), anticipazione (P2) e restrizione monotona (P3).
- Il Principio di Viabilità Informazionale stima il rischio non osservato come B̂(x) = U(x) + SB(x) + RG(x).
- Le azioni sono consentite solo quando la capacità S(x) supera B̂(x) di un margine di sicurezza.
- RiskGate implementa il framework con stimatori statistici dedicati.
- Gli stimatori statistici includono la divergenza KL, test z segmento-vs-resto e pattern matching sequenziale.
- RiskGate include un pipeline monotono fail-secure e un Autopilot a ciclo chiuso.
Entità
Istituzioni
- arXiv