Apprendimento per Rinforzo con Misure di Rischio Markoviane e Approssimazione Multipattern
Una nuova categoria di misure di rischio coerenti markoviane, denominate misure mini-batch, è stata proposta per problemi di decisione markoviani a orizzonte finito avversi al rischio. Inoltre, la ricerca introduce problemi avversi al rischio multipattern che estendono i sistemi lineari. Queste teorie sono utilizzate in un approccio Q-learning basato su caratteristiche con approssimazione del Q-factor multipattern, che raggiunge un bound di regret ad alta probabilità di O(H^2 N^H sqrt(K)), dove H rappresenta l'orizzonte, N indica la dimensione del mini-batch e K il numero di episodi. Inoltre, viene introdotta una variante efficiente della tecnica Q-learning, che ottimizza la fase di valutazione della politica. I risultati teorici sono illustrati attraverso uno scenario di assegnazione stocastica e una sfida multi-armed bandit a orizzonte breve.
Fatti principali
- Introduce misure di rischio coerenti markoviane mini-batch.
- Definisce problemi avversi al rischio multipattern che generalizzano i sistemi lineari.
- Propone Q-learning basato su caratteristiche con approssimazione del Q-factor multipattern.
- Dimostra il bound di regret O(H^2 N^H sqrt(K)).
- Propone una versione economica del Q-learning che semplifica la valutazione della politica.
- Illustrato su un problema di assegnazione stocastica.
- Illustrato su un problema multi-armed bandit a orizzonte breve.
- H è l'orizzonte, N è la dimensione del mini-batch, K è il numero di episodi.
Entità
Istituzioni
- arXiv