Nuovo Operatore di Media Armonica per RL a Ricompensa Media in SMDP

other · 2026-05-07

Un nuovo articolo di ricerca introduce un operatore di media armonica modificato per l'apprendimento per rinforzo a ricompensa media in processi decisionali semi-markoviani (SMDP). L'operatore calcola correttamente i tassi di ricompensa anche quando ricompense e durate non sono stazionarie su un orizzonte infinito, risolvendo un difetto degli algoritmi basati su rapporti esistenti. L'articolo dimostra proprietà teoriche e presenta risultati empirici. Il lavoro è rilevante per compiti continui, non episodici, e offre algoritmi di apprendimento model-free robusti a distribuzioni mutevoli.

Fatti principali

arXiv:2605.04880v1
Tipo di annuncio: cross
Focus su RL a ricompensa media non scontata in compiti a orizzonte infinito e non episodici
Gli SMDP coinvolgono azioni discrete che generano ricompense e durate stocastiche
L'obiettivo è ottimizzare il tasso di ricompensa medio
Gli algoritmi basati su rapporti esistenti possono essere errati in condizioni non stazionarie
L'articolo presenta un nuovo operatore di media armonica modificato
L'operatore calcola correttamente i tassi di ricompensa in condizioni di non stazionarietà
Produce algoritmi di apprendimento model-free per SMDP
Le proprietà teoriche sono dimostrate
È inclusa una dimostrazione empirica

Entità

—

Fonti

arXiv cs.AI — 2026-05-07