TimeRewarder: Apprendere Ricompense Dense da Video Passivi tramite Distanza Temporale

ai-technology · 2026-05-22

TimeRewarder introduce un approccio innovativo all'apprendimento delle ricompense estraendo segnali di stima del progresso da fonti video passive, come video umani e dimostrazioni robotiche, attraverso l'analisi delle distanze temporali tra coppie di fotogrammi. Questo metodo fornisce ricompense proxy incrementali per facilitare l'apprendimento per rinforzo. Nei test che coinvolgono dieci compiti Meta-World, TimeRewarder migliora significativamente le prestazioni in scenari con ricompense sparse, raggiungendo un successo quasi perfetto in 9 compiti su 10 con appena 200.000 interazioni per compito, superando le tecniche precedenti.

Fatti principali

TimeRewarder apprende ricompense dense da video passivi
Utilizza le distanze temporali tra coppie di fotogrammi
Testato su dieci compiti Meta-World
Ha raggiunto un successo quasi perfetto in 9/10 compiti
Ha utilizzato solo 200.000 interazioni ambientali per compito
Ha superato i metodi precedenti
Affronta i problemi di ricompense sparse nell'apprendimento per rinforzo
Pubblicato su arXiv con ID 2509.26627

TimeRewarder: Apprendere Ricompense Dense da Video Passivi tramite Distanza Temporale

Fatti principali

Entità

Istituzioni

Fonti