Completezza PSPACE dei POMDP Multi-Ambiente

other · 2026-05-11

Un nuovo articolo stabilisce che il calcolo dei valori e delle politiche ottimali nei processi decisionali di Markov parzialmente osservabili multi-ambiente (MEPOMDP) con obiettivi a orizzonte finito è PSPACE-completo. Ciò estende il noto risultato di completezza PSPACE per i POMDP standard al contesto più generale dei MEPOMDP, dove lo stato iniziale è sconosciuto e scelto in modo avversariale. Gli autori presentano anche un algoritmo pratico che supera significativamente l'unico algoritmo precedentemente noto su benchmark classici. Il lavoro è pubblicato su arXiv nella categoria Computer Science > Artificial Intelligence.

Fatti principali

I MEPOMDP estendono i POMDP con uno stato iniziale scelto in modo avversariale.
Il problema del calcolo del valore e della politica ottimali nei MEPOMDP con obiettivi a orizzonte finito è dimostrato essere PSPACE-completo.
Viene presentato un algoritmo pratico valutato su benchmark classici.
Il nuovo algoritmo supera significativamente l'unico algoritmo precedentemente noto.
L'articolo è elencato su arXiv sotto Computer Science > Artificial Intelligence.
L'ID arXiv è 2605.07537.

Completezza PSPACE dei POMDP Multi-Ambiente

Fatti principali

Entità

Istituzioni

Fonti