Il Framework ExpertGen Automatizza l'Apprendimento di Politiche Esperte per la Robotica tramite Trasferimento Sim-to-Real
Il framework ExpertGen semplifica il processo di apprendimento di politiche esperte in simulazione, facilitando transizioni efficaci sim-to-real per la robotica. Affronta il problema della raccolta di dati robotici estesi e di alta qualità, poiché acquisire dimostrazioni umane tramite teleoperazione è troppo costoso per essere scalato in ambienti reali. ExpertGen inizia con un comportamento precedente derivato da una politica di diffusione addestrata su dimostrazioni imperfette, che possono essere generate da modelli linguistici di grandi dimensioni o provenire da umani. Successivamente, l'apprendimento per rinforzo affina questo precedente per migliorare il successo del compito, regolando il rumore iniziale del modello di diffusione mantenendo l'integrità della politica originale. Congelando la politica di diffusione pre-addestrata, ExpertGen garantisce che l'esplorazione rimanga entro confini di comportamento sicuri e simili a quelli umani. Questo metodo consente lo sviluppo efficiente di politiche di clonazione del comportamento robuste e generalizzabili. Il framework è stato dettagliato nel documento intitolato "ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors", con l'identificatore arXiv 2603.15956v2. Il tipo di annuncio è replace-cross, che indica una versione aggiornata sul server di preprint arXiv.
Fatti principali
- ExpertGen automatizza l'apprendimento di politiche esperte in simulazione per un trasferimento scalabile sim-to-real.
- Le dimostrazioni umane tramite teleoperazione sono costose da acquisire su larga scala nel mondo reale.
- Il framework utilizza una politica di diffusione addestrata su dimostrazioni imperfette come comportamento precedente.
- Le dimostrazioni imperfette possono essere sintetizzate da modelli linguistici di grandi dimensioni o fornite da umani.
- L'apprendimento per rinforzo ottimizza il rumore iniziale del modello di diffusione per orientarsi verso un alto successo del compito.
- La politica di diffusione originale rimane congelata durante l'apprendimento per rinforzo.
- Il congelamento della politica regolarizza l'esplorazione entro varietà di comportamento sicure e simili a quelle umane.
- Il documento è disponibile su arXiv con identificatore 2603.15956v2 e tipo di annuncio replace-cross.
Entità
Istituzioni
- arXiv