Il Filtro di Kalman Offre un'Alternativa Principiata alla Normalizzazione della Ricompensa nel RL
Uno studio recente introduce K-Score, una tecnica innovativa che sostituisce la normale normalizzazione della ricompensa nell'apprendimento per rinforzo basato sul gradiente politico con un filtro di Kalman 1D per la valutazione in tempo reale della ricompensa. Questo metodo stima continuamente la media sottostante della ricompensa, appianando efficacemente i rendimenti ad alta varianza e adattandosi ad ambienti mutevoli senza alterare gli attuali framework politici. I test condotti su LunarLander e CartPole dimostrano una convergenza più rapida e una varianza di addestramento inferiore rispetto ai metodi tradizionali. Il codice sorgente è accessibile pubblicamente.
Fatti principali
- Il metodo integra un filtro di Kalman 1D per la stima online della ricompensa.
- Stima ricorsivamente la media latente della ricompensa, appianando i rendimenti ad alta varianza.
- Si adatta ad ambienti non stazionari.
- Non richiede modifiche alle architetture politiche esistenti.
- Gli esperimenti su LunarLander e CartPole mostrano una convergenza accelerata.
- Riduce la varianza di addestramento rispetto alla normalizzazione standard.
- Il codice è disponibile all'URL fornito.
- L'articolo è intitolato 'K-Score: Filtro di Kalman come Alternativa Principiata alla Normalizzazione della Ricompensa nell'Apprendimento per Rinforzo'.
Entità
Istituzioni
- arXiv