EPO-Safe: Agenti LLM Apprendono la Sicurezza da Segnali di Pericolo a 1 Bit

ai-technology · 2026-04-29

I ricercatori hanno introdotto un nuovo framework chiamato EPO-Safe, che sta per Experiential Prompt Optimization for Safe Agents. Questo sistema innovativo consente agli agenti basati su modelli linguistici di grandi dimensioni di apprendere obiettivi di sicurezza puramente attraverso l'esperienza. EPO-Safe costruisce piani d'azione passo dopo passo, rispondendo a segnali di pericolo molto semplici (un solo bit per passo temporale) e migliora il proprio comportamento linguistico attraverso la riflessione. Invece di fare affidamento su testi estesi come i metodi tradizionali, opera efficacemente con informazioni limitate in ambienti strutturati. L'agente non accede alla funzione di performance nascosta R*; ha bisogno solo di un bit per segnalare azioni non sicure. I test condotti su cinque AI Safety Gridworlds, così come su cinque scenari testuali simili, mostrano che EPO-Safe identifica rapidamente comportamenti sicuri entro uno o due round, dimostrando una promettente via per il ragionamento sulla sicurezza in agenti autonomi.

Fatti principali

Il framework EPO-Safe utilizza segnali di pericolo a 1 bit per l'apprendimento della sicurezza
Gli agenti LLM generano piani d'azione e ricevono avvisi binari
Nessun accesso alla funzione di performance nascosta R*
Valutato su cinque AI Safety Gridworlds e cinque analoghi testuali
Comportamento sicuro scoperto entro 1-2 round
Contrasta con i metodi standard di riflessione LLM che necessitano di feedback dettagliati
Il framework evolve specifiche comportamentali in linguaggio naturale attraverso la riflessione
Pubblicato su arXiv (2604.23210)

EPO-Safe: Agenti LLM Apprendono la Sicurezza da Segnali di Pericolo a 1 Bit

Fatti principali

Entità

Istituzioni

Fonti