L'algoritmo SOPE stabilizza la valutazione off-policy per l'RL online
Il nuovo algoritmo sviluppato, SOPE (Stabilizing Off-Policy Evaluation), affronta il problema dell'integrazione dei dati storici nell'apprendimento per rinforzo online. Questo approccio utilizza un segnale di Valutazione Off-Policy (OPE) allineato all'attore come strumento di arresto anticipato automatico, consentendo una gestione dinamica della durata dell'addestramento offline. SOPE valuta il critico su un sottoinsieme di validazione separato basato sulla distribuzione delle azioni della politica corrente, interrompendo gli aggiornamenti del gradiente quando i vantaggi dei dati fuori distribuzione si stabilizzano, eliminando così la necessità di regolazioni manuali della schedulazione. Le prestazioni dell'algoritmo sono state testate su 25 compiti di controllo continuo all'interno della suite di benchmark Minari.
Fatti principali
- SOPE utilizza un segnale OPE allineato all'attore come meccanismo di arresto anticipato automatico.
- Controlla dinamicamente la durata delle fasi di addestramento offline.
- Il critico viene valutato su una suddivisione di validazione trattenuta sotto la distribuzione delle azioni della politica corrente.
- Gli aggiornamenti del gradiente si fermano quando i benefici fuori distribuzione si saturano.
- Non è richiesta la regolazione manuale della schedulazione.
- Valutato su 25 compiti di controllo continuo dal benchmark Minari.
- Il lavoro è pubblicato su arXiv con ID 2605.05863.
- L'approccio elimina il compromesso tra costo computazionale e pipeline multi-stadio.
Entità
Istituzioni
- arXiv