Twice Sequential Monte Carlo Tree Search migliora l'apprendimento per rinforzo
I ricercatori introducono Twice Sequential Monte Carlo Tree Search (TSMCTS), un metodo di apprendimento per rinforzo basato su modello che supera sia il baseline Sequential Monte Carlo (SMC) sia una versione moderna di Monte Carlo Tree Search (MCTS) come operatore di miglioramento delle politiche. TSMCTS affronta i problemi di varianza e degenerazione dei percorsi in SMC, scalando meglio con l'aumento della profondità di ricerca, pur rimanendo adatto alla GPU. Il metodo è stato testato in ambienti discreti e continui, mostrando una scalabilità favorevole con il calcolo sequenziale e una ridotta varianza dello stimatore.
Fatti principali
- TSMCTS supera il baseline SMC e il moderno MCTS come operatore di miglioramento delle politiche
- Affronta la varianza e la degenerazione dei percorsi in SMC
- Scala favorevolmente con il calcolo sequenziale
- Mantiene le proprietà di parallelizzazione di SMC
- Testato in ambienti discreti e continui
- Riduce la varianza dello stimatore
- Mitiga gli effetti della degenerazione dei percorsi
- SMC è più facile da parallelizzare e più adatto all'accelerazione GPU rispetto a MCTS
Entità
—