RL da Offline a Online: Selezione Adattiva delle Politiche Sotto Budget di Interazione

other · 2026-05-07

Un nuovo articolo su arXiv (2605.05123) affronta le sfide nell'apprendimento per rinforzo da offline a online (O2O-RL), dove le politiche vengono prima addestrate su dataset statici e poi perfezionate con interazioni online limitate. Gli autori identificano due problemi chiave: la valutazione off-policy (OPE) può essere inaffidabile, portando a un'implementazione rischiosa della politica, mentre la valutazione online (OE) può consumare un budget di interazione prezioso che potrebbe essere utilizzato per il perfezionamento. Inoltre, spesso è impossibile sapere a priori se una politica pre-addestrata migliorerà dopo l'implementazione, specialmente in ambienti non stazionari. L'articolo propone un metodo adattivo per selezionare e perfezionare le politiche sotto budget di interazione, mirando a bilanciare esplorazione e sfruttamento senza impegnarsi in una singola politica in anticipo.

Fatti principali

L'articolo arXiv:2605.05123 affronta l'apprendimento per rinforzo da offline a online.
Le politiche vengono prima addestrate offline utilizzando dataset precedentemente raccolti.
Il perfezionamento avviene tramite interazioni online limitate.
Le politiche candidate vengono valutate utilizzando la valutazione off-policy (OPE) o la valutazione online (OE).
L'OPE può essere inaffidabile, rendendo rischiosa l'implementazione.
L'OE può richiedere un'interazione online sostanziale che potrebbe essere utilizzata per il perfezionamento.
Spesso non è possibile determinare se una politica pre-addestrata migliorerà con il perfezionamento.
Gli ambienti non stazionari complicano la previsione del miglioramento della politica.

RL da Offline a Online: Selezione Adattiva delle Politiche Sotto Budget di Interazione

Fatti principali

Entità

Istituzioni

Fonti