SDPG: Addestramento Efficiente di Visual RL su una Singola GPU

ai-technology · 2026-05-27

I ricercatori hanno sviluppato una nuova tecnica leggera di apprendimento per rinforzo visivo chiamata gradiente di policy stocastico disaccoppiato (SDPG). Questo metodo consente di addestrare varie policy di controllo visuomotorio end-to-end in poche ore utilizzando una singola GPU NVIDIA RTX 4080. SDPG calcola i gradienti della policy applicando perturbazioni casuali ai rollout delle traiettorie, riducendo significativamente la necessità di ambienti renderizzati in batch e minimizzando i requisiti di calcolo e memoria. Nei benchmark visivi MuJoCo, SDPG supera costantemente i metodi di base in termini di durata dell'addestramento, efficienza della memoria e ricompense. Inoltre, il team ha rilasciato una suite completa di benchmark realistici di robotica visiva che includono manipolazione abile e locomozione complessa, dimostrando un efficace trasferimento sim-to-real su hardware reale. L'articolo è disponibile su arXiv.

Fatti principali

SDPG addestra policy visuomotorie end-to-end su una singola GPU NVIDIA RTX 4080 in poche ore.
SDPG utilizza perturbazioni casuali dei rollout delle traiettorie per stimare i gradienti della policy.
SDPG richiede ordini di grandezza in meno di ambienti renderizzati in batch.
SDPG supera i metodi di base nei benchmark visivi MuJoCo per tempo di addestramento, memoria e ricompense.
Una nuova suite di benchmark di robotica visiva include compiti di manipolazione abile e locomozione.
Il trasferimento sim-to-real è stato dimostrato su hardware fisico.
Il metodo riduce significativamente il sovraccarico di calcolo e memoria.
L'articolo è pubblicato su arXiv sotto Computer Science > Robotics.

SDPG: Addestramento Efficiente di Visual RL su una Singola GPU

Fatti principali

Entità

Istituzioni

Fonti