FATE: Auto-evoluzione on-policy per agenti LLM più sicuri
Un team di ricercatori ha introdotto FATE, un framework auto-evolutivo che opera on-policy, sfruttando le traiettorie di fallimento per migliorare l'allineamento alla sicurezza degli agenti LLM che utilizzano strumenti, senza bisogno di dimostrazioni esperte. Gli attuali segnali di sicurezza tendono a essere a livello di risposta o off-policy, determinando un compromesso tra sicurezza e utilità. FATE converte i fallimenti valutati dai verificatori in indicazioni di riparazione: per ogni fallimento, la policy suggerisce potenziali riparazioni, che vengono poi rivalutate dai verificatori in base a sicurezza, utilità, controllo del rifiuto eccessivo e validità della traiettoria. Questi dati completi a livello di traiettoria fungono da segnale di supervisione, migliorando la sicurezza dell'agente e garantendo al contempo le prestazioni del compito.
Fatti principali
- FATE è un framework auto-evolutivo on-policy per l'allineamento alla sicurezza degli agenti.
- Utilizza le traiettorie di fallimento anziché solo le risposte finali.
- I segnali di sicurezza esistenti sono a livello di risposta o off-policy.
- FATE trasforma i fallimenti valutati dai verificatori in supervisione di riparazione senza dimostrazioni esperte.
- I candidati di riparazione vengono rivalutati in base a sicurezza, utilità, controllo del rifiuto eccessivo e validità della traiettoria.
- Il framework mira a evitare compromessi tra sicurezza e utilità.
- Gli agenti LLM che utilizzano strumenti possono eseguire chiamate a strumenti non sicure, seguire istruzioni iniettate, accettare richieste dannose o rifiutare eccessivamente compiti benigni.
- L'approccio utilizza informazioni dense a livello di traiettoria come segnale di supervisione.
Entità
—