ARTFEED — Contemporary Art Intelligence

TimeRewarder: Apprendere Ricompense Dense da Video Passivi tramite Distanza Temporale

ai-technology · 2026-05-22

TimeRewarder introduce un approccio innovativo all'apprendimento delle ricompense estraendo segnali di stima del progresso da fonti video passive, come video umani e dimostrazioni robotiche, attraverso l'analisi delle distanze temporali tra coppie di fotogrammi. Questo metodo fornisce ricompense proxy incrementali per facilitare l'apprendimento per rinforzo. Nei test che coinvolgono dieci compiti Meta-World, TimeRewarder migliora significativamente le prestazioni in scenari con ricompense sparse, raggiungendo un successo quasi perfetto in 9 compiti su 10 con appena 200.000 interazioni per compito, superando le tecniche precedenti.

Fatti principali

  • TimeRewarder apprende ricompense dense da video passivi
  • Utilizza le distanze temporali tra coppie di fotogrammi
  • Testato su dieci compiti Meta-World
  • Ha raggiunto un successo quasi perfetto in 9/10 compiti
  • Ha utilizzato solo 200.000 interazioni ambientali per compito
  • Ha superato i metodi precedenti
  • Affronta i problemi di ricompense sparse nell'apprendimento per rinforzo
  • Pubblicato su arXiv con ID 2509.26627

Entità

Istituzioni

  • arXiv

Fonti