ARTFEED — Contemporary Art Intelligence

EPO-Safe: Agenti LLM Apprendono la Sicurezza da Segnali di Pericolo a 1 Bit

ai-technology · 2026-04-29

I ricercatori hanno introdotto un nuovo framework chiamato EPO-Safe, che sta per Experiential Prompt Optimization for Safe Agents. Questo sistema innovativo consente agli agenti basati su modelli linguistici di grandi dimensioni di apprendere obiettivi di sicurezza puramente attraverso l'esperienza. EPO-Safe costruisce piani d'azione passo dopo passo, rispondendo a segnali di pericolo molto semplici (un solo bit per passo temporale) e migliora il proprio comportamento linguistico attraverso la riflessione. Invece di fare affidamento su testi estesi come i metodi tradizionali, opera efficacemente con informazioni limitate in ambienti strutturati. L'agente non accede alla funzione di performance nascosta R*; ha bisogno solo di un bit per segnalare azioni non sicure. I test condotti su cinque AI Safety Gridworlds, così come su cinque scenari testuali simili, mostrano che EPO-Safe identifica rapidamente comportamenti sicuri entro uno o due round, dimostrando una promettente via per il ragionamento sulla sicurezza in agenti autonomi.

Fatti principali

  • Il framework EPO-Safe utilizza segnali di pericolo a 1 bit per l'apprendimento della sicurezza
  • Gli agenti LLM generano piani d'azione e ricevono avvisi binari
  • Nessun accesso alla funzione di performance nascosta R*
  • Valutato su cinque AI Safety Gridworlds e cinque analoghi testuali
  • Comportamento sicuro scoperto entro 1-2 round
  • Contrasta con i metodi standard di riflessione LLM che necessitano di feedback dettagliati
  • Il framework evolve specifiche comportamentali in linguaggio naturale attraverso la riflessione
  • Pubblicato su arXiv (2604.23210)

Entità

Istituzioni

  • arXiv

Fonti