Incorporamenti Latenti Probabilistici per il Trasferimento RL da Simulazione a Realtà

other · 2026-05-28

Un nuovo framework per l'apprendimento per rinforzo incorpora embeddings latenti probabilistici insieme all'adattamento dinamico delle politiche, facilitando un trasferimento sicuro ed efficace delle politiche dalle simulazioni alle applicazioni reali. Questo metodo affronta il divario Sim2Real nei sistemi ciberfisici, come i veicoli autonomi, dove le tecniche zero-shot spesso compromettono le prestazioni o pongono rischi per la sicurezza. Modellando un insieme di Processi Decisionali di Markov Vincolati (CMDP) in vari contesti ambientali, il framework utilizza meta-RL per dedurre variabili latenti di contesto, consentendo aggiustamenti dinamici delle politiche.

Fatti principali

Gli agenti RL profondi per sistemi ciberfisici vengono prima addestrati in simulatori a causa di risorse limitate e problemi di sicurezza.
Il divario Sim2Real causa degrado delle prestazioni o violazioni della sicurezza nell'implementazione nel mondo reale.
Gli approcci zero-shot esistenti come il robust safe RL e la randomizzazione del dominio mitigano il problema ma a costo di prestazioni degradate o rischi di sicurezza residui.
Il framework proposto utilizza embeddings latenti probabilistici e adattamento dinamico delle politiche.
Considera una famiglia di Processi Decisionali di Markov Vincolati (CMDP) in diversi contesti ambientali.
Il framework sfrutta variabili latenti di contesto in meta-RL per inferire i contesti ambientali.
L'articolo proviene da arXiv:2605.27659v1.
La ricerca si concentra sul trasferimento sicuro ed efficiente delle politiche.

Incorporamenti Latenti Probabilistici per il Trasferimento RL da Simulazione a Realtà

Fatti principali

Entità

Istituzioni

Fonti