FATE: Auto-evoluzione on-policy per agenti LLM più sicuri

ai-technology · 2026-05-13

Un team di ricercatori ha introdotto FATE, un framework auto-evolutivo che opera on-policy, sfruttando le traiettorie di fallimento per migliorare l'allineamento alla sicurezza degli agenti LLM che utilizzano strumenti, senza bisogno di dimostrazioni esperte. Gli attuali segnali di sicurezza tendono a essere a livello di risposta o off-policy, determinando un compromesso tra sicurezza e utilità. FATE converte i fallimenti valutati dai verificatori in indicazioni di riparazione: per ogni fallimento, la policy suggerisce potenziali riparazioni, che vengono poi rivalutate dai verificatori in base a sicurezza, utilità, controllo del rifiuto eccessivo e validità della traiettoria. Questi dati completi a livello di traiettoria fungono da segnale di supervisione, migliorando la sicurezza dell'agente e garantendo al contempo le prestazioni del compito.

Fatti principali

FATE è un framework auto-evolutivo on-policy per l'allineamento alla sicurezza degli agenti.
Utilizza le traiettorie di fallimento anziché solo le risposte finali.
I segnali di sicurezza esistenti sono a livello di risposta o off-policy.
FATE trasforma i fallimenti valutati dai verificatori in supervisione di riparazione senza dimostrazioni esperte.
I candidati di riparazione vengono rivalutati in base a sicurezza, utilità, controllo del rifiuto eccessivo e validità della traiettoria.
Il framework mira a evitare compromessi tra sicurezza e utilità.
Gli agenti LLM che utilizzano strumenti possono eseguire chiamate a strumenti non sicure, seguire istruzioni iniettate, accettare richieste dannose o rifiutare eccessivamente compiti benigni.
L'approccio utilizza informazioni dense a livello di traiettoria come segnale di supervisione.

Entità

—

Fonti

arXiv cs.AI — 2026-05-13