Apprendimento Bayesiano di Transizione Inversa per RL Basato su Modelli da Traiettorie Quasi Ottimali

other · 2026-04-30

I ricercatori propongono l'Apprendimento di Transizione Inversa, un metodo basato su vincoli per stimare le dinamiche di transizione da traiettorie esperte quasi ottimali nell'apprendimento per rinforzo offline basato su modelli. L'approccio tratta la copertura limitata come una caratteristica, utilizzando la quasi ottimalità per informare la stima di T*. I vincoli sono integrati in un quadro bayesiano. Esperimenti su ambienti sintetici e scenari sanitari reali, come la gestione dei pazienti in ICU per l'ipotensione, mostrano un miglioramento nel processo decisionale e la capacità di prevedere il successo del trasferimento tramite il posterior.

Fatti principali

Metodo: Apprendimento di Transizione Inversa
Stima le dinamiche di transizione T* da traiettorie esperte quasi ottimali
Contesto di apprendimento per rinforzo offline basato su modelli
Utilizza la quasi ottimalità come caratteristica per informare la stima di T*
Integra i vincoli in un approccio bayesiano
Testato su ambienti sintetici e scenari sanitari reali
Scenario sanitario: gestione dei pazienti in ICU per l'ipotensione
Dimostra un miglioramento nel processo decisionale e nella previsione del successo del trasferimento

Entità

—

Fonti

arXiv cs.AI — 2026-04-29