Apprendimento per Rinforzo Implementato per la Prima Volta su un Ballbot Umanoide

ai-technology · 2026-04-30

Un team di ricercatori ha implementato con successo l'apprendimento per rinforzo (RL) su un ballbot umanoide chiamato asRoBallet. I ballbot rappresentano un benchmark tradizionale per il controllo non olonomo e sottoattuato, ma l'applicazione dell'RL dalla simulazione all'hardware fisico ha incontrato ostacoli a causa di problemi di modellazione del contatto, ritardi degli attuatori ed esplorazione sicura. Per affrontare queste sfide, i ricercatori hanno progettato una simulazione MuJoCo dettagliata che rappresenta accuratamente la meccanica discreta dei rulli delle ruote omni di tipo ETH, tenendo conto di vibrazioni parassite e discontinuità di contatto precedentemente trascurate. Inoltre, hanno sviluppato una strategia RL sensibile all'attrito per aiutare a colmare il divario sim-to-real, facendo progredire i controlli robotici per ballbot umanoidi reali.

Fatti principali

Primo dispiegamento riuscito di RL su hardware ballbot umanoide.
I ballbot sono un benchmark canonico per il controllo sottoattuato e non olonomo.
Lavori precedenti utilizzavano LQR e MPC per l'equilibrio 3D, non RL su hardware.
Simulazione MuJoCo ad alta fedeltà che modella la meccanica discreta dei rulli delle ruote omni di tipo ETH.
Apprendimento per rinforzo sensibile all'attrito proposto per colmare il divario sim-to-real.
Sfide affrontate: modellazione del contatto, latenza e jitter degli attuatori, esplorazione sicura dell'hardware.
Il sistema si chiama asRoBallet.
La ricerca è pubblicata su arXiv (2604.24916).

Apprendimento per Rinforzo Implementato per la Prima Volta su un Ballbot Umanoide

Fatti principali

Entità

Istituzioni

Fonti