ARTFEED — Contemporary Art Intelligence

Apprendimento di MDP ad Albero Trattando le Politiche come Bracci di Bandit

other · 2026-05-07

Un nuovo articolo su arXiv (2605.04979) introduce un approccio per l'apprendimento online nei Problemi di Decisione Markoviani ad Albero (T-MDP) trattando ogni politica come un braccio in algoritmi bandit. I T-MDP sono MDP a orizzonte finito in cui ogni stato è raggiungibile dallo stato iniziale tramite una traiettoria unica, modellando naturalmente giochi sequenziali con perfetta memoria contro avversari stazionari. Gli autori mostrano che algoritmi bandit standard come LUCB e UCB possono essere applicati nonostante il numero esponenziale di politiche, progettando limiti di confidenza che condividono dati tra le politiche, consentendo memoria polinomiale e calcolo per passo. Vengono forniti limiti superiori dipendenti dall'istanza sulla complessità del campione e sul regret.

Fatti principali

  • Articolo arXiv:2605.04979 pubblicato nel 2025.
  • Si concentra sui Problemi di Decisione Markoviani ad Albero (T-MDP).
  • I T-MDP sono MDP a orizzonte finito con traiettorie stato-azione uniche.
  • Applicabile a giochi sequenziali con perfetta memoria.
  • Tratta ogni politica come un braccio in algoritmi bandit.
  • Utilizza gli algoritmi LUCB e UCB.
  • Limiti di confidenza progettati per condividere dati tra le politiche.
  • Raggiunge memoria polinomiale e calcolo per passo.
  • Fornisce limiti superiori dipendenti dall'istanza sulla complessità del campione e sul regret.

Entità

Istituzioni

  • arXiv

Fonti