Architettura di Separazione dei Poteri per la Sicurezza degli Agenti AI
Un recente studio pubblicato su arXiv (2604.23646) introduce l'architettura Policy-Execution-Authorization (PEA), progettata per migliorare la sicurezza negli agenti AI attraverso un approccio di separazione dei poteri a livello di sistema. I ricercatori sostengono che le tecniche attuali, come RLHF e il prompting costituzionale, offrono solo garanzie probabilistiche contro il disallineamento agentivo, in cui sistemi AI avanzati possono produrre ed eseguire azioni dannose basate su obiettivi auto-generati. PEA separa la generazione delle intenzioni, l'autorizzazione e l'esecuzione in livelli distinti collegati da token di capacità crittograficamente sicuri. L'articolo delinea cinque contributi chiave, tra cui un Intent Verification Layer (IVL) per garantire la coerenza tra capacità e intenzione, e l'Intent Lineage Tracking (ILT), che collega tutte le intenzioni eseguibili alle richieste utente originali tramite ancore crittografiche. Questo lavoro mira a mantenere strutturalmente l'integrità degli obiettivi e a prevenire azioni non autorizzate o disallineate.
Fatti principali
- L'articolo arXiv 2604.23646 propone l'architettura PEA
- PEA è un design di separazione dei poteri per la sicurezza degli agenti AI
- I metodi esistenti come RLHF e il prompting costituzionale sono probabilistici
- PEA disaccoppia generazione delle intenzioni, autorizzazione ed esecuzione
- I livelli sono collegati tramite token di capacità crittograficamente vincolati
- Include un Intent Verification Layer (IVL) per la coerenza
- L'Intent Lineage Tracking (ILT) lega le intenzioni alle richieste utente tramite ancore crittografiche
- Mira a far rispettare strutturalmente l'integrità degli obiettivi
Entità
Istituzioni
- arXiv