ROAD: Miscelazione Adattiva dei Dati per RL Offline-to-Online tramite Ottimizzazione Bi-Livello

other · 2026-05-16

Il nuovo framework ROAD (Reinforcement Learning with Optimized Adaptive Data-mixing) affronta il problema dello spostamento di distribuzione nell'apprendimento per rinforzo offline-to-online. Inquadrando la selezione dei dati come un problema di ottimizzazione bi-livello, ROAD automatizza il replay dei dati e considera la strategia di miscelazione come una meta-decisione che influisce sulle prestazioni della politica. Questo metodo innovativo risolve il disallineamento degli obiettivi presente nelle tecniche attuali che dipendono da rapporti di miscelazione fissi o strategie di replay euristiche, che non si adattano a ambienti e dinamiche di addestramento variabili. ROAD funge da framework dinamico plug-and-play volto a migliorare l'equilibrio tra stabilità e prestazioni a lungo termine.

Fatti principali

ROAD è un framework per l'apprendimento per rinforzo offline-to-online.
Affronta lo spostamento di distribuzione non stazionario tra dataset offline e politica online.
Gli approcci esistenti utilizzano rapporti di miscelazione statici o strategie di replay basate su euristiche.
ROAD formula la selezione dei dati come un processo di ottimizzazione bi-livello.
La strategia di miscelazione dei dati è interpretata come una meta-decisione che governa le prestazioni della politica.
ROAD è un framework dinamico plug-and-play.
Mira a migliorare il compromesso tra stabilità e prestazioni asintotiche.
Il framework automatizza il processo di replay dei dati.

Entità

—

Fonti

arXiv cs.AI — 2026-05-16