RL Distribuzionale Esteso ai Processi Decisionali di Markov Parzialmente Osservabili

other · 2026-05-07

Uno studio recente pubblicato su arXiv estende l'Apprendimento per Rinforzo Distribuzionale (DistRL) al regno dei Processi Decisionali di Markov Parzialmente Osservabili (POMDP). I ricercatori presentano operatori di Bellman distribuzionali adatti all'osservabilità parziale e dimostrano la loro convergenza utilizzando la metrica p-Wasserstein suprema. Introducono una rappresentazione finita delle distribuzioni di ritorno attraverso psi-vettori, che estendono i tradizionali alfa-vettori presenti nei risolutori POMDP. Inoltre, creano l'Iterazione del Valore Basata su Punti Distribuzionale (DPBVI), incorporando psi-vettori in un metodo di backup basato su punti convenzionale. Questa ricerca è guidata dai progressi nelle tecniche di modello del mondo, dove modelli latenti simulano credenze e facilitano la pianificazione. Il documento può essere trovato su arXiv:2505.06518v3.

Fatti principali

Il documento estende l'Apprendimento per Rinforzo Distribuzionale ai POMDP.
Vengono introdotti nuovi operatori di Bellman distribuzionali per l'osservabilità parziale.
La convergenza è dimostrata sotto la metrica p-Wasserstein suprema.
Una rappresentazione finita tramite psi-vettori generalizza gli alfa-vettori.
DPBVI integra psi-vettori nel backup basato su punti.
Il lavoro è motivato dagli approcci basati su modelli del mondo.
Il documento è su arXiv con ID 2505.06518v3.
Il tipo di annuncio è 'replace'.

RL Distribuzionale Esteso ai Processi Decisionali di Markov Parzialmente Osservabili

Fatti principali

Entità

Istituzioni

Fonti