WarmPrior migliora la manipolazione robotica con priori temporali
Un nuovo metodo chiamato WarmPrior migliora le politiche generative per il controllo robotico sostituendo la distribuzione sorgente gaussiana standard con un prior temporalmente fondato costruito dalla cronologia delle azioni recenti. Questo approccio migliora costantemente i tassi di successo nei compiti di manipolazione raddrizzando i percorsi di probabilità, simile agli accoppiamenti di trasporto ottimale nel Flusso Rettificato. WarmPrior rimodella anche l'esplorazione nell'apprendimento per rinforzo basato su prior, aumentando l'efficienza del campionamento e le prestazioni finali. La ricerca identifica la distribuzione sorgente come un asse di progettazione chiave poco esplorato nel controllo robotico generativo.
Fatti principali
- WarmPrior è un prior temporalmente fondato per politiche generative
- Sostituisce la distribuzione sorgente gaussiana standard
- Costruito dalla cronologia delle azioni recenti prontamente disponibile
- Migliora costantemente i tassi di successo nei compiti di manipolazione robotica
- Raddrizza i percorsi di probabilità, riecheggiando il Flusso Rettificato
- Rimodella anche la distribuzione di esplorazione nell'RL basato su prior
- Migliora sia l'efficienza del campionamento che le prestazioni finali
- Identifica la distribuzione sorgente come asse di progettazione poco esplorato
Entità
Istituzioni
- arXiv