Apprendimento per Differenza Temporale Enfatico Centrato Regolarizzato
Un nuovo metodo di apprendimento per rinforzo, l'Apprendimento per Differenza Temporale Enfatico Centrato Regolarizzato (RETD), è stato introdotto per affrontare il bilanciamento tra stabilità, geometria di proiezione e gestione della varianza nell'apprendimento TD off-policy che utilizza approssimazione di funzioni. Mentre l'ETD (Emphatic TD) migliora la geometria di proiezione attraverso l'enfasi successiva, è afflitto da una varianza significativa. I ricercatori affrontano questa sfida utilizzando il centraggio dell'errore di Bellman, rivelando che una semplice estensione enfatica centrata può creare un accoppiamento ausiliario che mina la definitezza positiva della matrice chiave dell'ETD. Il RETD mantiene la traccia successiva e regolarizza solo la ricorsione di centraggio ausiliaria, sollevando il blocco inferiore destro della matrice chiave accoppiata da 1 a 1+c. Vengono stabilite la derivazione della matrice core del RETD e la sua convergenza sotto una condizione di regolarizzazione sufficiente conservativa. Questo studio è disponibile su arXiv con riferimento 2605.04100.
Fatti principali
- Algoritmo: Apprendimento per Differenza Temporale Enfatico Centrato Regolarizzato (RETD)
- Affronta l'apprendimento TD off-policy con approssimazione di funzioni
- Migliora l'ETD riducendo la varianza
- Utilizza il centraggio dell'errore di Bellman con regolarizzazione
- La regolarizzazione solleva il blocco inferiore destro della matrice chiave da 1 a 1+c
- Convergenza dimostrata sotto condizione sufficiente conservativa
- Articolo disponibile su arXiv:2605.04100
Entità
—