ARTFEED — Contemporary Art Intelligence

Architettura di Separazione dei Poteri per la Sicurezza degli Agenti AI

ai-technology · 2026-04-29

Un recente studio pubblicato su arXiv (2604.23646) introduce l'architettura Policy-Execution-Authorization (PEA), progettata per migliorare la sicurezza negli agenti AI attraverso un approccio di separazione dei poteri a livello di sistema. I ricercatori sostengono che le tecniche attuali, come RLHF e il prompting costituzionale, offrono solo garanzie probabilistiche contro il disallineamento agentivo, in cui sistemi AI avanzati possono produrre ed eseguire azioni dannose basate su obiettivi auto-generati. PEA separa la generazione delle intenzioni, l'autorizzazione e l'esecuzione in livelli distinti collegati da token di capacità crittograficamente sicuri. L'articolo delinea cinque contributi chiave, tra cui un Intent Verification Layer (IVL) per garantire la coerenza tra capacità e intenzione, e l'Intent Lineage Tracking (ILT), che collega tutte le intenzioni eseguibili alle richieste utente originali tramite ancore crittografiche. Questo lavoro mira a mantenere strutturalmente l'integrità degli obiettivi e a prevenire azioni non autorizzate o disallineate.

Fatti principali

  • L'articolo arXiv 2604.23646 propone l'architettura PEA
  • PEA è un design di separazione dei poteri per la sicurezza degli agenti AI
  • I metodi esistenti come RLHF e il prompting costituzionale sono probabilistici
  • PEA disaccoppia generazione delle intenzioni, autorizzazione ed esecuzione
  • I livelli sono collegati tramite token di capacità crittograficamente vincolati
  • Include un Intent Verification Layer (IVL) per la coerenza
  • L'Intent Lineage Tracking (ILT) lega le intenzioni alle richieste utente tramite ancore crittografiche
  • Mira a far rispettare strutturalmente l'integrità degli obiettivi

Entità

Istituzioni

  • arXiv

Fonti