ARTFEED — Contemporary Art Intelligence

Valutazione delle Politiche Offline tramite Formulazione di Vivacità Scontata

other · 2026-05-13

Un nuovo framework per la valutazione delle politiche offline nella manipolazione robotica affronta le sfide delle ricompense sparse e del bias di troncamento a orizzonte finito. Il metodo utilizza un operatore di Bellman basato sulla vivacità per interpretare la valutazione come un problema di completamento del compito, ottenendo una funzione valore a punto fisso conservativa e robusta al troncamento. L'analisi teorica include garanzie di contrazione. Il lavoro è pubblicato su arXiv (2605.11479).

Fatti principali

  • La valutazione delle politiche è fondamentale per lo sviluppo di politiche robotiche.
  • Ricompense sparse e progressione non monotona del compito sfidano la valutazione.
  • Rollout di lunghezza finita introducono bias di troncamento.
  • Il framework proposto utilizza un operatore di Bellman basato sulla vivacità.
  • La formulazione produce una funzione valore a punto fisso conservativa.
  • Le proprietà teoriche includono garanzie di contrazione.
  • Pubblicato su arXiv con ID 2605.11479.
  • Il tipo di annuncio è cross.

Entità

Istituzioni

  • arXiv

Fonti