RL da Offline a Online: Selezione Adattiva delle Politiche Sotto Budget di Interazione
Un nuovo articolo su arXiv (2605.05123) affronta le sfide nell'apprendimento per rinforzo da offline a online (O2O-RL), dove le politiche vengono prima addestrate su dataset statici e poi perfezionate con interazioni online limitate. Gli autori identificano due problemi chiave: la valutazione off-policy (OPE) può essere inaffidabile, portando a un'implementazione rischiosa della politica, mentre la valutazione online (OE) può consumare un budget di interazione prezioso che potrebbe essere utilizzato per il perfezionamento. Inoltre, spesso è impossibile sapere a priori se una politica pre-addestrata migliorerà dopo l'implementazione, specialmente in ambienti non stazionari. L'articolo propone un metodo adattivo per selezionare e perfezionare le politiche sotto budget di interazione, mirando a bilanciare esplorazione e sfruttamento senza impegnarsi in una singola politica in anticipo.
Fatti principali
- L'articolo arXiv:2605.05123 affronta l'apprendimento per rinforzo da offline a online.
- Le politiche vengono prima addestrate offline utilizzando dataset precedentemente raccolti.
- Il perfezionamento avviene tramite interazioni online limitate.
- Le politiche candidate vengono valutate utilizzando la valutazione off-policy (OPE) o la valutazione online (OE).
- L'OPE può essere inaffidabile, rendendo rischiosa l'implementazione.
- L'OE può richiedere un'interazione online sostanziale che potrebbe essere utilizzata per il perfezionamento.
- Spesso non è possibile determinare se una politica pre-addestrata migliorerà con il perfezionamento.
- Gli ambienti non stazionari complicano la previsione del miglioramento della politica.
Entità
Istituzioni
- arXiv