ARTFEED — Contemporary Art Intelligence

Nuovo Operatore di Media Armonica per RL a Ricompensa Media in SMDP

other · 2026-05-07

Un nuovo articolo di ricerca introduce un operatore di media armonica modificato per l'apprendimento per rinforzo a ricompensa media in processi decisionali semi-markoviani (SMDP). L'operatore calcola correttamente i tassi di ricompensa anche quando ricompense e durate non sono stazionarie su un orizzonte infinito, risolvendo un difetto degli algoritmi basati su rapporti esistenti. L'articolo dimostra proprietà teoriche e presenta risultati empirici. Il lavoro è rilevante per compiti continui, non episodici, e offre algoritmi di apprendimento model-free robusti a distribuzioni mutevoli.

Fatti principali

  • arXiv:2605.04880v1
  • Tipo di annuncio: cross
  • Focus su RL a ricompensa media non scontata in compiti a orizzonte infinito e non episodici
  • Gli SMDP coinvolgono azioni discrete che generano ricompense e durate stocastiche
  • L'obiettivo è ottimizzare il tasso di ricompensa medio
  • Gli algoritmi basati su rapporti esistenti possono essere errati in condizioni non stazionarie
  • L'articolo presenta un nuovo operatore di media armonica modificato
  • L'operatore calcola correttamente i tassi di ricompensa in condizioni di non stazionarietà
  • Produce algoritmi di apprendimento model-free per SMDP
  • Le proprietà teoriche sono dimostrate
  • È inclusa una dimostrazione empirica

Entità

Fonti