ARTFEED — Contemporary Art Intelligence

Q2RL: Estrazione di Valori Q da Behavior Cloning per l'Apprendimento Robotico

other · 2026-05-07

Il Behavior Cloning (BC) è efficace per l'apprendimento robotico ma manca di miglioramento online autonomo dopo le dimostrazioni. I metodi esistenti offline-to-online soffrono di disallineamento della distribuzione. Q2RL (Q-Estimation e Q-Gating da BC per Reinforcement Learning) affronta questo problema estraendo una funzione Q da una politica BC con poche interazioni ambientali, quindi utilizzando Q-Gating per passare tra azioni BC e RL in base ai valori Q. Supera i baselines all'avanguardia su compiti di manipolazione D4RL e robomimic.

Fatti principali

  • 1. Il Behavior Cloning manca di miglioramento online autonomo.
  • 2. Il disallineamento della distribuzione tra dati offline e apprendimento online causa la sostituzione della politica.
  • 3. Q2RL consiste in Q-Estimation e Q-Gating.
  • 4. Q-Estimation estrae la funzione Q dalla politica BC utilizzando pochi passi di interazione.
  • 5. Q-Gating passa tra azioni BC e RL in base ai valori Q.
  • 6. Valutato su benchmark D4RL e robomimic.
  • 7. Supera i baselines offline-to-online all'avanguardia.
  • 8. Pubblicato su arXiv con ID 2605.05172.

Entità

Istituzioni

  • arXiv

Fonti