Guida Diffusiva Disaccoppiata per il Safe RL Offline Adattivo

other · 2026-05-07

Un nuovo metodo chiamato Safe Decoupled Guidance Diffusion (SDGD) è stato sviluppato per l'apprendimento per rinforzo sicuro offline, consentendo alle politiche di adattarsi in base a budget di sicurezza variabili durante l'implementazione. Tratta la generazione di traiettorie sicure come campionamento da una distribuzione limitata da vincoli, dove il budget stabilisce i confini della traiettoria e la ricompensa modella le preferenze entro tali limiti. SDGD utilizza una guida senza classificatore legata ai limiti di costo per orientare il campionamento verso traiettorie conformi, applicando anche una guida basata sul gradiente della ricompensa per migliorare le traiettorie verso risultati migliori. Questo metodo affronta il problema delle strategie di guida esistenti che considerano il miglioramento della ricompensa e i vincoli di sicurezza come obiettivi opposti, rischiando potenzialmente la sicurezza sotto i limiti di budget. Maggiori informazioni sono disponibili nell'articolo su arXiv con ID 2605.02777v2.

Fatti principali

Il metodo si chiama Safe Decoupled Guidance Diffusion (SDGD)
Progettato per l'apprendimento per rinforzo sicuro offline
Consente l'adattamento a budget di sicurezza variabili durante l'implementazione
Reinterpreta la generazione di traiettorie come campionamento da una distribuzione vincolata
Utilizza una guida senza classificatore condizionata al limite di costo
Utilizza una guida basata sul gradiente della ricompensa per un ritorno più elevato
Affronta l'inaffidabilità degli obiettivi di gradiente concorrenti
Articolo disponibile su arXiv con ID 2605.02777v2

Guida Diffusiva Disaccoppiata per il Safe RL Offline Adattivo

Fatti principali

Entità

Istituzioni

Fonti