Limiti di Rammarico Min-Max Ottimali Consapevoli della Varianza per MDP Logistici Multinomiali

other · 2026-05-20

Ricercatori di Li et al. (2024) hanno pubblicato su arXiv risultati che valutano i limiti di rammarico nell'apprendimento per rinforzo all'interno di Processi Decisionali di Markov (MDP) episodici con transizioni logistiche multinomiali. Lo studio identifica che gli algoritmi attuali mostrano un rammarico di O~(dH^2√T) basato su dimensioni, lunghezza degli episodi e numero totale di episodi. Gli autori introducono una costante, σ̄_T ≤ 1/2, che riflette la varianza media della funzione valore ottimale durante il processo di apprendimento. Il loro algoritmo proposto raggiunge un rammarico di O~(dH^2σ̄_T√T), migliorando così le prestazioni in MDP strutturati e affrontando anche i vincoli in MDP robusti.

Fatti principali

1. Lo studio esamina l'apprendimento per rinforzo per MDP episodici con transizioni logistiche multinomiali.
2. Il limite di rammarico esistente è O~(dH^2√T) da Li et al. (2024).
3. Introduce una costante dipendente dal problema σ̄_T ≤ 1/2 che misura la varianza media normalizzata.
4. L'algoritmo proposto raggiunge un rammarico di O~(dH^2σ̄_T√T).
5. Per MDP robusti con vincolo KL, σ̄_T = O(H^{-1}), riducendo la dipendenza dall'orizzonte di √H.
6. Si basa sui lavori sui banditi logistici di Abeille et al., Faury et al. e Boudart et al.
7. Pubblicato su arXiv con ID 2605.19768.
8. Il tipo di annuncio è nuovo.

Limiti di Rammarico Min-Max Ottimali Consapevoli della Varianza per MDP Logistici Multinomiali

Fatti principali

Entità

Istituzioni

Fonti