RL Distribuzionale Esteso ai Processi Decisionali di Markov Parzialmente Osservabili
Uno studio recente pubblicato su arXiv estende l'Apprendimento per Rinforzo Distribuzionale (DistRL) al regno dei Processi Decisionali di Markov Parzialmente Osservabili (POMDP). I ricercatori presentano operatori di Bellman distribuzionali adatti all'osservabilità parziale e dimostrano la loro convergenza utilizzando la metrica p-Wasserstein suprema. Introducono una rappresentazione finita delle distribuzioni di ritorno attraverso psi-vettori, che estendono i tradizionali alfa-vettori presenti nei risolutori POMDP. Inoltre, creano l'Iterazione del Valore Basata su Punti Distribuzionale (DPBVI), incorporando psi-vettori in un metodo di backup basato su punti convenzionale. Questa ricerca è guidata dai progressi nelle tecniche di modello del mondo, dove modelli latenti simulano credenze e facilitano la pianificazione. Il documento può essere trovato su arXiv:2505.06518v3.
Fatti principali
- Il documento estende l'Apprendimento per Rinforzo Distribuzionale ai POMDP.
- Vengono introdotti nuovi operatori di Bellman distribuzionali per l'osservabilità parziale.
- La convergenza è dimostrata sotto la metrica p-Wasserstein suprema.
- Una rappresentazione finita tramite psi-vettori generalizza gli alfa-vettori.
- DPBVI integra psi-vettori nel backup basato su punti.
- Il lavoro è motivato dagli approcci basati su modelli del mondo.
- Il documento è su arXiv con ID 2505.06518v3.
- Il tipo di annuncio è 'replace'.
Entità
Istituzioni
- arXiv