Twice Sequential Monte Carlo Tree Search migliora l'apprendimento per rinforzo

other · 2026-05-23

I ricercatori introducono Twice Sequential Monte Carlo Tree Search (TSMCTS), un metodo di apprendimento per rinforzo basato su modello che supera sia il baseline Sequential Monte Carlo (SMC) sia una versione moderna di Monte Carlo Tree Search (MCTS) come operatore di miglioramento delle politiche. TSMCTS affronta i problemi di varianza e degenerazione dei percorsi in SMC, scalando meglio con l'aumento della profondità di ricerca, pur rimanendo adatto alla GPU. Il metodo è stato testato in ambienti discreti e continui, mostrando una scalabilità favorevole con il calcolo sequenziale e una ridotta varianza dello stimatore.

Fatti principali

TSMCTS supera il baseline SMC e il moderno MCTS come operatore di miglioramento delle politiche
Affronta la varianza e la degenerazione dei percorsi in SMC
Scala favorevolmente con il calcolo sequenziale
Mantiene le proprietà di parallelizzazione di SMC
Testato in ambienti discreti e continui
Riduce la varianza dello stimatore
Mitiga gli effetti della degenerazione dei percorsi
SMC è più facile da parallelizzare e più adatto all'accelerazione GPU rispetto a MCTS

Entità

—

Fonti

arXiv cs.AI — 2026-05-23