Valutazione delle Politiche Offline tramite Formulazione di Vivacità Scontata
Un nuovo framework per la valutazione delle politiche offline nella manipolazione robotica affronta le sfide delle ricompense sparse e del bias di troncamento a orizzonte finito. Il metodo utilizza un operatore di Bellman basato sulla vivacità per interpretare la valutazione come un problema di completamento del compito, ottenendo una funzione valore a punto fisso conservativa e robusta al troncamento. L'analisi teorica include garanzie di contrazione. Il lavoro è pubblicato su arXiv (2605.11479).
Fatti principali
- La valutazione delle politiche è fondamentale per lo sviluppo di politiche robotiche.
- Ricompense sparse e progressione non monotona del compito sfidano la valutazione.
- Rollout di lunghezza finita introducono bias di troncamento.
- Il framework proposto utilizza un operatore di Bellman basato sulla vivacità.
- La formulazione produce una funzione valore a punto fisso conservativa.
- Le proprietà teoriche includono garanzie di contrazione.
- Pubblicato su arXiv con ID 2605.11479.
- Il tipo di annuncio è cross.
Entità
Istituzioni
- arXiv