ROAD: Miscelazione Adattiva dei Dati per RL Offline-to-Online tramite Ottimizzazione Bi-Livello
Il nuovo framework ROAD (Reinforcement Learning with Optimized Adaptive Data-mixing) affronta il problema dello spostamento di distribuzione nell'apprendimento per rinforzo offline-to-online. Inquadrando la selezione dei dati come un problema di ottimizzazione bi-livello, ROAD automatizza il replay dei dati e considera la strategia di miscelazione come una meta-decisione che influisce sulle prestazioni della politica. Questo metodo innovativo risolve il disallineamento degli obiettivi presente nelle tecniche attuali che dipendono da rapporti di miscelazione fissi o strategie di replay euristiche, che non si adattano a ambienti e dinamiche di addestramento variabili. ROAD funge da framework dinamico plug-and-play volto a migliorare l'equilibrio tra stabilità e prestazioni a lungo termine.
Fatti principali
- ROAD è un framework per l'apprendimento per rinforzo offline-to-online.
- Affronta lo spostamento di distribuzione non stazionario tra dataset offline e politica online.
- Gli approcci esistenti utilizzano rapporti di miscelazione statici o strategie di replay basate su euristiche.
- ROAD formula la selezione dei dati come un processo di ottimizzazione bi-livello.
- La strategia di miscelazione dei dati è interpretata come una meta-decisione che governa le prestazioni della politica.
- ROAD è un framework dinamico plug-and-play.
- Mira a migliorare il compromesso tra stabilità e prestazioni asintotiche.
- Il framework automatizza il processo di replay dei dati.
Entità
—