TimeRewarder: Apprendere Ricompense Dense da Video Passivi tramite Distanza Temporale
TimeRewarder introduce un approccio innovativo all'apprendimento delle ricompense estraendo segnali di stima del progresso da fonti video passive, come video umani e dimostrazioni robotiche, attraverso l'analisi delle distanze temporali tra coppie di fotogrammi. Questo metodo fornisce ricompense proxy incrementali per facilitare l'apprendimento per rinforzo. Nei test che coinvolgono dieci compiti Meta-World, TimeRewarder migliora significativamente le prestazioni in scenari con ricompense sparse, raggiungendo un successo quasi perfetto in 9 compiti su 10 con appena 200.000 interazioni per compito, superando le tecniche precedenti.
Fatti principali
- TimeRewarder apprende ricompense dense da video passivi
- Utilizza le distanze temporali tra coppie di fotogrammi
- Testato su dieci compiti Meta-World
- Ha raggiunto un successo quasi perfetto in 9/10 compiti
- Ha utilizzato solo 200.000 interazioni ambientali per compito
- Ha superato i metodi precedenti
- Affronta i problemi di ricompense sparse nell'apprendimento per rinforzo
- Pubblicato su arXiv con ID 2509.26627
Entità
Istituzioni
- arXiv