Completezza PSPACE dei POMDP Multi-Ambiente
Un nuovo articolo stabilisce che il calcolo dei valori e delle politiche ottimali nei processi decisionali di Markov parzialmente osservabili multi-ambiente (MEPOMDP) con obiettivi a orizzonte finito è PSPACE-completo. Ciò estende il noto risultato di completezza PSPACE per i POMDP standard al contesto più generale dei MEPOMDP, dove lo stato iniziale è sconosciuto e scelto in modo avversariale. Gli autori presentano anche un algoritmo pratico che supera significativamente l'unico algoritmo precedentemente noto su benchmark classici. Il lavoro è pubblicato su arXiv nella categoria Computer Science > Artificial Intelligence.
Fatti principali
- I MEPOMDP estendono i POMDP con uno stato iniziale scelto in modo avversariale.
- Il problema del calcolo del valore e della politica ottimali nei MEPOMDP con obiettivi a orizzonte finito è dimostrato essere PSPACE-completo.
- Viene presentato un algoritmo pratico valutato su benchmark classici.
- Il nuovo algoritmo supera significativamente l'unico algoritmo precedentemente noto.
- L'articolo è elencato su arXiv sotto Computer Science > Artificial Intelligence.
- L'ID arXiv è 2605.07537.
Entità
Istituzioni
- arXiv