Nuovo Operatore di Media Armonica per RL a Ricompensa Media in SMDP
Un nuovo articolo di ricerca introduce un operatore di media armonica modificato per l'apprendimento per rinforzo a ricompensa media in processi decisionali semi-markoviani (SMDP). L'operatore calcola correttamente i tassi di ricompensa anche quando ricompense e durate non sono stazionarie su un orizzonte infinito, risolvendo un difetto degli algoritmi basati su rapporti esistenti. L'articolo dimostra proprietà teoriche e presenta risultati empirici. Il lavoro è rilevante per compiti continui, non episodici, e offre algoritmi di apprendimento model-free robusti a distribuzioni mutevoli.
Fatti principali
- arXiv:2605.04880v1
- Tipo di annuncio: cross
- Focus su RL a ricompensa media non scontata in compiti a orizzonte infinito e non episodici
- Gli SMDP coinvolgono azioni discrete che generano ricompense e durate stocastiche
- L'obiettivo è ottimizzare il tasso di ricompensa medio
- Gli algoritmi basati su rapporti esistenti possono essere errati in condizioni non stazionarie
- L'articolo presenta un nuovo operatore di media armonica modificato
- L'operatore calcola correttamente i tassi di ricompensa in condizioni di non stazionarietà
- Produce algoritmi di apprendimento model-free per SMDP
- Le proprietà teoriche sono dimostrate
- È inclusa una dimostrazione empirica
Entità
—