SDPG: Addestramento Efficiente di Visual RL su una Singola GPU
I ricercatori hanno sviluppato una nuova tecnica leggera di apprendimento per rinforzo visivo chiamata gradiente di policy stocastico disaccoppiato (SDPG). Questo metodo consente di addestrare varie policy di controllo visuomotorio end-to-end in poche ore utilizzando una singola GPU NVIDIA RTX 4080. SDPG calcola i gradienti della policy applicando perturbazioni casuali ai rollout delle traiettorie, riducendo significativamente la necessità di ambienti renderizzati in batch e minimizzando i requisiti di calcolo e memoria. Nei benchmark visivi MuJoCo, SDPG supera costantemente i metodi di base in termini di durata dell'addestramento, efficienza della memoria e ricompense. Inoltre, il team ha rilasciato una suite completa di benchmark realistici di robotica visiva che includono manipolazione abile e locomozione complessa, dimostrando un efficace trasferimento sim-to-real su hardware reale. L'articolo è disponibile su arXiv.
Fatti principali
- SDPG addestra policy visuomotorie end-to-end su una singola GPU NVIDIA RTX 4080 in poche ore.
- SDPG utilizza perturbazioni casuali dei rollout delle traiettorie per stimare i gradienti della policy.
- SDPG richiede ordini di grandezza in meno di ambienti renderizzati in batch.
- SDPG supera i metodi di base nei benchmark visivi MuJoCo per tempo di addestramento, memoria e ricompense.
- Una nuova suite di benchmark di robotica visiva include compiti di manipolazione abile e locomozione.
- Il trasferimento sim-to-real è stato dimostrato su hardware fisico.
- Il metodo riduce significativamente il sovraccarico di calcolo e memoria.
- L'articolo è pubblicato su arXiv sotto Computer Science > Robotics.
Entità
Istituzioni
- arXiv
- NVIDIA