ARTFEED — Contemporary Art Intelligence

Guida Diffusiva Disaccoppiata per il Safe RL Offline Adattivo

other · 2026-05-07

Un nuovo metodo chiamato Safe Decoupled Guidance Diffusion (SDGD) è stato sviluppato per l'apprendimento per rinforzo sicuro offline, consentendo alle politiche di adattarsi in base a budget di sicurezza variabili durante l'implementazione. Tratta la generazione di traiettorie sicure come campionamento da una distribuzione limitata da vincoli, dove il budget stabilisce i confini della traiettoria e la ricompensa modella le preferenze entro tali limiti. SDGD utilizza una guida senza classificatore legata ai limiti di costo per orientare il campionamento verso traiettorie conformi, applicando anche una guida basata sul gradiente della ricompensa per migliorare le traiettorie verso risultati migliori. Questo metodo affronta il problema delle strategie di guida esistenti che considerano il miglioramento della ricompensa e i vincoli di sicurezza come obiettivi opposti, rischiando potenzialmente la sicurezza sotto i limiti di budget. Maggiori informazioni sono disponibili nell'articolo su arXiv con ID 2605.02777v2.

Fatti principali

  • Il metodo si chiama Safe Decoupled Guidance Diffusion (SDGD)
  • Progettato per l'apprendimento per rinforzo sicuro offline
  • Consente l'adattamento a budget di sicurezza variabili durante l'implementazione
  • Reinterpreta la generazione di traiettorie come campionamento da una distribuzione vincolata
  • Utilizza una guida senza classificatore condizionata al limite di costo
  • Utilizza una guida basata sul gradiente della ricompensa per un ritorno più elevato
  • Affronta l'inaffidabilità degli obiettivi di gradiente concorrenti
  • Articolo disponibile su arXiv con ID 2605.02777v2

Entità

Istituzioni

  • arXiv

Fonti