Apprendimento Bayesiano di Transizione Inversa per RL Basato su Modelli da Traiettorie Quasi Ottimali
I ricercatori propongono l'Apprendimento di Transizione Inversa, un metodo basato su vincoli per stimare le dinamiche di transizione da traiettorie esperte quasi ottimali nell'apprendimento per rinforzo offline basato su modelli. L'approccio tratta la copertura limitata come una caratteristica, utilizzando la quasi ottimalità per informare la stima di T*. I vincoli sono integrati in un quadro bayesiano. Esperimenti su ambienti sintetici e scenari sanitari reali, come la gestione dei pazienti in ICU per l'ipotensione, mostrano un miglioramento nel processo decisionale e la capacità di prevedere il successo del trasferimento tramite il posterior.
Fatti principali
- Metodo: Apprendimento di Transizione Inversa
- Stima le dinamiche di transizione T* da traiettorie esperte quasi ottimali
- Contesto di apprendimento per rinforzo offline basato su modelli
- Utilizza la quasi ottimalità come caratteristica per informare la stima di T*
- Integra i vincoli in un approccio bayesiano
- Testato su ambienti sintetici e scenari sanitari reali
- Scenario sanitario: gestione dei pazienti in ICU per l'ipotensione
- Dimostra un miglioramento nel processo decisionale e nella previsione del successo del trasferimento
Entità
—