Q2RL: Estrazione di Valori Q da Behavior Cloning per l'Apprendimento Robotico

other · 2026-05-07

Il Behavior Cloning (BC) è efficace per l'apprendimento robotico ma manca di miglioramento online autonomo dopo le dimostrazioni. I metodi esistenti offline-to-online soffrono di disallineamento della distribuzione. Q2RL (Q-Estimation e Q-Gating da BC per Reinforcement Learning) affronta questo problema estraendo una funzione Q da una politica BC con poche interazioni ambientali, quindi utilizzando Q-Gating per passare tra azioni BC e RL in base ai valori Q. Supera i baselines all'avanguardia su compiti di manipolazione D4RL e robomimic.

Fatti principali

1. Il Behavior Cloning manca di miglioramento online autonomo.
2. Il disallineamento della distribuzione tra dati offline e apprendimento online causa la sostituzione della politica.
3. Q2RL consiste in Q-Estimation e Q-Gating.
4. Q-Estimation estrae la funzione Q dalla politica BC utilizzando pochi passi di interazione.
5. Q-Gating passa tra azioni BC e RL in base ai valori Q.
6. Valutato su benchmark D4RL e robomimic.
7. Supera i baselines offline-to-online all'avanguardia.
8. Pubblicato su arXiv con ID 2605.05172.

Q2RL: Estrazione di Valori Q da Behavior Cloning per l'Apprendimento Robotico

Fatti principali

Entità

Istituzioni

Fonti