Limiti di Rammarico Min-Max Ottimali Consapevoli della Varianza per MDP Logistici Multinomiali
Ricercatori di Li et al. (2024) hanno pubblicato su arXiv risultati che valutano i limiti di rammarico nell'apprendimento per rinforzo all'interno di Processi Decisionali di Markov (MDP) episodici con transizioni logistiche multinomiali. Lo studio identifica che gli algoritmi attuali mostrano un rammarico di O~(dH^2√T) basato su dimensioni, lunghezza degli episodi e numero totale di episodi. Gli autori introducono una costante, σ̄_T ≤ 1/2, che riflette la varianza media della funzione valore ottimale durante il processo di apprendimento. Il loro algoritmo proposto raggiunge un rammarico di O~(dH^2σ̄_T√T), migliorando così le prestazioni in MDP strutturati e affrontando anche i vincoli in MDP robusti.
Fatti principali
- 1. Lo studio esamina l'apprendimento per rinforzo per MDP episodici con transizioni logistiche multinomiali.
- 2. Il limite di rammarico esistente è O~(dH^2√T) da Li et al. (2024).
- 3. Introduce una costante dipendente dal problema σ̄_T ≤ 1/2 che misura la varianza media normalizzata.
- 4. L'algoritmo proposto raggiunge un rammarico di O~(dH^2σ̄_T√T).
- 5. Per MDP robusti con vincolo KL, σ̄_T = O(H^{-1}), riducendo la dipendenza dall'orizzonte di √H.
- 6. Si basa sui lavori sui banditi logistici di Abeille et al., Faury et al. e Boudart et al.
- 7. Pubblicato su arXiv con ID 2605.19768.
- 8. Il tipo di annuncio è nuovo.
Entità
Istituzioni
- arXiv