Q2RL: Estrazione di Valori Q da Behavior Cloning per l'Apprendimento Robotico
Il Behavior Cloning (BC) è efficace per l'apprendimento robotico ma manca di miglioramento online autonomo dopo le dimostrazioni. I metodi esistenti offline-to-online soffrono di disallineamento della distribuzione. Q2RL (Q-Estimation e Q-Gating da BC per Reinforcement Learning) affronta questo problema estraendo una funzione Q da una politica BC con poche interazioni ambientali, quindi utilizzando Q-Gating per passare tra azioni BC e RL in base ai valori Q. Supera i baselines all'avanguardia su compiti di manipolazione D4RL e robomimic.
Fatti principali
- 1. Il Behavior Cloning manca di miglioramento online autonomo.
- 2. Il disallineamento della distribuzione tra dati offline e apprendimento online causa la sostituzione della politica.
- 3. Q2RL consiste in Q-Estimation e Q-Gating.
- 4. Q-Estimation estrae la funzione Q dalla politica BC utilizzando pochi passi di interazione.
- 5. Q-Gating passa tra azioni BC e RL in base ai valori Q.
- 6. Valutato su benchmark D4RL e robomimic.
- 7. Supera i baselines offline-to-online all'avanguardia.
- 8. Pubblicato su arXiv con ID 2605.05172.
Entità
Istituzioni
- arXiv