Apprendimento per Rinforzo Implementato per la Prima Volta su un Ballbot Umanoide
Un team di ricercatori ha implementato con successo l'apprendimento per rinforzo (RL) su un ballbot umanoide chiamato asRoBallet. I ballbot rappresentano un benchmark tradizionale per il controllo non olonomo e sottoattuato, ma l'applicazione dell'RL dalla simulazione all'hardware fisico ha incontrato ostacoli a causa di problemi di modellazione del contatto, ritardi degli attuatori ed esplorazione sicura. Per affrontare queste sfide, i ricercatori hanno progettato una simulazione MuJoCo dettagliata che rappresenta accuratamente la meccanica discreta dei rulli delle ruote omni di tipo ETH, tenendo conto di vibrazioni parassite e discontinuità di contatto precedentemente trascurate. Inoltre, hanno sviluppato una strategia RL sensibile all'attrito per aiutare a colmare il divario sim-to-real, facendo progredire i controlli robotici per ballbot umanoidi reali.
Fatti principali
- Primo dispiegamento riuscito di RL su hardware ballbot umanoide.
- I ballbot sono un benchmark canonico per il controllo sottoattuato e non olonomo.
- Lavori precedenti utilizzavano LQR e MPC per l'equilibrio 3D, non RL su hardware.
- Simulazione MuJoCo ad alta fedeltà che modella la meccanica discreta dei rulli delle ruote omni di tipo ETH.
- Apprendimento per rinforzo sensibile all'attrito proposto per colmare il divario sim-to-real.
- Sfide affrontate: modellazione del contatto, latenza e jitter degli attuatori, esplorazione sicura dell'hardware.
- Il sistema si chiama asRoBallet.
- La ricerca è pubblicata su arXiv (2604.24916).
Entità
Istituzioni
- arXiv