SAS: Adattamento di Sicurezza al Momento del Test per RL Offline

ai-technology · 2026-04-30

Un team di ricercatori ha introdotto SAS (Self-Alignment for Safety), un framework basato su transformer progettato per l'apprendimento per rinforzo sicuro offline che si adatta durante il test senza necessità di riaddestramento. L'approccio impiega l'auto-allineamento, in cui l'agente crea traiettorie ipotetiche, identifica quelle che soddisfano la condizione di Lyapunov e le utilizza come prompt in-context per regolare il proprio comportamento verso la sicurezza. Questo processo trasforma l'immaginazione guidata da Lyapunov in prompt invarianti al controllo, interpretati gerarchicamente nell'apprendimento per rinforzo come inferenza bayesiana su abilità latenti. Testato su Safety Gymnasium e MuJoCo, SAS riduce costantemente i costi e migliora la sicurezza.

Fatti principali

SAS è un framework basato su transformer per RL sicuro offline.
Consente l'adattamento al momento del test senza riaddestramento.
Il meccanismo di auto-allineamento genera traiettorie immaginate e seleziona quelle che soddisfano Lyapunov.
Le traiettorie selezionate vengono utilizzate come prompt in-context.
Non sono necessari aggiornamenti dei parametri durante l'adattamento.
Il framework ammette un'interpretazione gerarchica del RL.
Testato su Safety Gymnasium e MuJoCo.
Riduce costantemente i costi e migliora la sicurezza.

Entità

—

Fonti

arXiv cs.AI — 2026-04-30