Valutazione delle Politiche Offline tramite Formulazione di Vivacità Scontata

other · 2026-05-13

Un nuovo framework per la valutazione delle politiche offline nella manipolazione robotica affronta le sfide delle ricompense sparse e del bias di troncamento a orizzonte finito. Il metodo utilizza un operatore di Bellman basato sulla vivacità per interpretare la valutazione come un problema di completamento del compito, ottenendo una funzione valore a punto fisso conservativa e robusta al troncamento. L'analisi teorica include garanzie di contrazione. Il lavoro è pubblicato su arXiv (2605.11479).

Fatti principali

La valutazione delle politiche è fondamentale per lo sviluppo di politiche robotiche.
Ricompense sparse e progressione non monotona del compito sfidano la valutazione.
Rollout di lunghezza finita introducono bias di troncamento.
Il framework proposto utilizza un operatore di Bellman basato sulla vivacità.
La formulazione produce una funzione valore a punto fisso conservativa.
Le proprietà teoriche includono garanzie di contrazione.
Pubblicato su arXiv con ID 2605.11479.
Il tipo di annuncio è cross.

Valutazione delle Politiche Offline tramite Formulazione di Vivacità Scontata

Fatti principali

Entità

Istituzioni

Fonti