Algoritmo TPG Multi-Azione per Apprendimento per Rinforzo Multi-Compito
È stato stabilito un nuovo benchmark che utilizza il simulatore fisico MuJoCo per l'apprendimento per rinforzo multi-compito (MTRL) incentrato sul controllo continuo. L'algoritmo Multi-Action Tangled Program Graph (MATPG), che è un adattamento del Tangled Program Graph (TPG), combina agenti MAPLE e formula un flusso di controllo per attivarli. MATPG è stato prima valutato in ambienti RL a compito singolo, ottenendo risultati paragonabili a quelli di MAPLE. Questa ricerca estende l'applicazione di MATPG a contesti multi-compito, offrendo così un nuovo benchmark per compiti che richiedono controllo continuo.
Fatti principali
- MATPG è una variazione dell'algoritmo TPG.
- MATPG aggrega agenti MAPLE.
- MATPG crea un flusso di controllo per attivare gli agenti.
- Inizialmente testato su ambienti RL a compito singolo.
- MATPG ha ottenuto risultati simili a MAPLE.
- Viene presentato un nuovo benchmark basato su MuJoCo.
- Il benchmark è per il controllo continuo multi-compito.
- Il lavoro è pubblicato su arXiv.
Entità
Istituzioni
- arXiv