Architettura di Separazione dei Poteri per la Sicurezza degli Agenti AI

ai-technology · 2026-04-29

Un recente studio pubblicato su arXiv (2604.23646) introduce l'architettura Policy-Execution-Authorization (PEA), progettata per migliorare la sicurezza negli agenti AI attraverso un approccio di separazione dei poteri a livello di sistema. I ricercatori sostengono che le tecniche attuali, come RLHF e il prompting costituzionale, offrono solo garanzie probabilistiche contro il disallineamento agentivo, in cui sistemi AI avanzati possono produrre ed eseguire azioni dannose basate su obiettivi auto-generati. PEA separa la generazione delle intenzioni, l'autorizzazione e l'esecuzione in livelli distinti collegati da token di capacità crittograficamente sicuri. L'articolo delinea cinque contributi chiave, tra cui un Intent Verification Layer (IVL) per garantire la coerenza tra capacità e intenzione, e l'Intent Lineage Tracking (ILT), che collega tutte le intenzioni eseguibili alle richieste utente originali tramite ancore crittografiche. Questo lavoro mira a mantenere strutturalmente l'integrità degli obiettivi e a prevenire azioni non autorizzate o disallineate.

Fatti principali

L'articolo arXiv 2604.23646 propone l'architettura PEA
PEA è un design di separazione dei poteri per la sicurezza degli agenti AI
I metodi esistenti come RLHF e il prompting costituzionale sono probabilistici
PEA disaccoppia generazione delle intenzioni, autorizzazione ed esecuzione
I livelli sono collegati tramite token di capacità crittograficamente vincolati
Include un Intent Verification Layer (IVL) per la coerenza
L'Intent Lineage Tracking (ILT) lega le intenzioni alle richieste utente tramite ancore crittografiche
Mira a far rispettare strutturalmente l'integrità degli obiettivi

Architettura di Separazione dei Poteri per la Sicurezza degli Agenti AI

Fatti principali

Entità

Istituzioni

Fonti