Apprendimento per Differenza Temporale Enfatico Centrato Regolarizzato

other · 2026-05-07

Un nuovo metodo di apprendimento per rinforzo, l'Apprendimento per Differenza Temporale Enfatico Centrato Regolarizzato (RETD), è stato introdotto per affrontare il bilanciamento tra stabilità, geometria di proiezione e gestione della varianza nell'apprendimento TD off-policy che utilizza approssimazione di funzioni. Mentre l'ETD (Emphatic TD) migliora la geometria di proiezione attraverso l'enfasi successiva, è afflitto da una varianza significativa. I ricercatori affrontano questa sfida utilizzando il centraggio dell'errore di Bellman, rivelando che una semplice estensione enfatica centrata può creare un accoppiamento ausiliario che mina la definitezza positiva della matrice chiave dell'ETD. Il RETD mantiene la traccia successiva e regolarizza solo la ricorsione di centraggio ausiliaria, sollevando il blocco inferiore destro della matrice chiave accoppiata da 1 a 1+c. Vengono stabilite la derivazione della matrice core del RETD e la sua convergenza sotto una condizione di regolarizzazione sufficiente conservativa. Questo studio è disponibile su arXiv con riferimento 2605.04100.

Fatti principali

Algoritmo: Apprendimento per Differenza Temporale Enfatico Centrato Regolarizzato (RETD)
Affronta l'apprendimento TD off-policy con approssimazione di funzioni
Migliora l'ETD riducendo la varianza
Utilizza il centraggio dell'errore di Bellman con regolarizzazione
La regolarizzazione solleva il blocco inferiore destro della matrice chiave da 1 a 1+c
Convergenza dimostrata sotto condizione sufficiente conservativa
Articolo disponibile su arXiv:2605.04100

Entità

—

Fonti

arXiv cs.AI — 2026-05-07