Apprendimento di MDP ad Albero Trattando le Politiche come Bracci di Bandit

other · 2026-05-07

Un nuovo articolo su arXiv (2605.04979) introduce un approccio per l'apprendimento online nei Problemi di Decisione Markoviani ad Albero (T-MDP) trattando ogni politica come un braccio in algoritmi bandit. I T-MDP sono MDP a orizzonte finito in cui ogni stato è raggiungibile dallo stato iniziale tramite una traiettoria unica, modellando naturalmente giochi sequenziali con perfetta memoria contro avversari stazionari. Gli autori mostrano che algoritmi bandit standard come LUCB e UCB possono essere applicati nonostante il numero esponenziale di politiche, progettando limiti di confidenza che condividono dati tra le politiche, consentendo memoria polinomiale e calcolo per passo. Vengono forniti limiti superiori dipendenti dall'istanza sulla complessità del campione e sul regret.

Fatti principali

Articolo arXiv:2605.04979 pubblicato nel 2025.
Si concentra sui Problemi di Decisione Markoviani ad Albero (T-MDP).
I T-MDP sono MDP a orizzonte finito con traiettorie stato-azione uniche.
Applicabile a giochi sequenziali con perfetta memoria.
Tratta ogni politica come un braccio in algoritmi bandit.
Utilizza gli algoritmi LUCB e UCB.
Limiti di confidenza progettati per condividere dati tra le politiche.
Raggiunge memoria polinomiale e calcolo per passo.
Fornisce limiti superiori dipendenti dall'istanza sulla complessità del campione e sul regret.

Apprendimento di MDP ad Albero Trattando le Politiche come Bracci di Bandit

Fatti principali

Entità

Istituzioni

Fonti