L'apprendimento per rinforzo ottimizza la locomozione umanoide per obiettivi a corto raggio

other · 2026-04-24

Un nuovo approccio di apprendimento per rinforzo ottimizza direttamente la locomozione di robot umanoidi per pose target SE(2) a corto raggio, affrontando le inefficienze dei metodi esistenti di inseguimento della velocità. Il metodo utilizza una funzione di ricompensa basata su costellazioni per incoraggiare movimenti naturali ed efficienti. Un framework di benchmarking misura il consumo energetico, il tempo per raggiungere l'obiettivo e il numero di passi. I risultati mostrano una performance costantemente superiore rispetto agli approcci standard.

Fatti principali

Gli umanoidi devono eseguire movimenti a corto raggio guidati da compiti verso pose target SE(2).
I metodi esistenti ottimizzano per l'inseguimento della velocità, non per il raggiungimento diretto della posa.
L'approccio proposto utilizza l'apprendimento per rinforzo con una funzione di ricompensa basata su costellazioni.
Un framework di benchmarking misura energia, tempo per raggiungere l'obiettivo e numero di passi.
Il metodo supera gli approcci standard su una distribuzione di obiettivi SE(2).
Il lavoro è pubblicato su arXiv con ID 2508.14098v2.

L'apprendimento per rinforzo ottimizza la locomozione umanoide per obiettivi a corto raggio

Fatti principali

Entità

Istituzioni

Fonti