ARTFEED — Contemporary Art Intelligence

RL Distribuzionale Esteso ai Processi Decisionali di Markov Parzialmente Osservabili

other · 2026-05-07

Uno studio recente pubblicato su arXiv estende l'Apprendimento per Rinforzo Distribuzionale (DistRL) al regno dei Processi Decisionali di Markov Parzialmente Osservabili (POMDP). I ricercatori presentano operatori di Bellman distribuzionali adatti all'osservabilità parziale e dimostrano la loro convergenza utilizzando la metrica p-Wasserstein suprema. Introducono una rappresentazione finita delle distribuzioni di ritorno attraverso psi-vettori, che estendono i tradizionali alfa-vettori presenti nei risolutori POMDP. Inoltre, creano l'Iterazione del Valore Basata su Punti Distribuzionale (DPBVI), incorporando psi-vettori in un metodo di backup basato su punti convenzionale. Questa ricerca è guidata dai progressi nelle tecniche di modello del mondo, dove modelli latenti simulano credenze e facilitano la pianificazione. Il documento può essere trovato su arXiv:2505.06518v3.

Fatti principali

  • Il documento estende l'Apprendimento per Rinforzo Distribuzionale ai POMDP.
  • Vengono introdotti nuovi operatori di Bellman distribuzionali per l'osservabilità parziale.
  • La convergenza è dimostrata sotto la metrica p-Wasserstein suprema.
  • Una rappresentazione finita tramite psi-vettori generalizza gli alfa-vettori.
  • DPBVI integra psi-vettori nel backup basato su punti.
  • Il lavoro è motivato dagli approcci basati su modelli del mondo.
  • Il documento è su arXiv con ID 2505.06518v3.
  • Il tipo di annuncio è 'replace'.

Entità

Istituzioni

  • arXiv

Fonti