Algoritmo TPG Multi-Azione per Apprendimento per Rinforzo Multi-Compito

other · 2026-04-30

È stato stabilito un nuovo benchmark che utilizza il simulatore fisico MuJoCo per l'apprendimento per rinforzo multi-compito (MTRL) incentrato sul controllo continuo. L'algoritmo Multi-Action Tangled Program Graph (MATPG), che è un adattamento del Tangled Program Graph (TPG), combina agenti MAPLE e formula un flusso di controllo per attivarli. MATPG è stato prima valutato in ambienti RL a compito singolo, ottenendo risultati paragonabili a quelli di MAPLE. Questa ricerca estende l'applicazione di MATPG a contesti multi-compito, offrendo così un nuovo benchmark per compiti che richiedono controllo continuo.

Fatti principali

MATPG è una variazione dell'algoritmo TPG.
MATPG aggrega agenti MAPLE.
MATPG crea un flusso di controllo per attivare gli agenti.
Inizialmente testato su ambienti RL a compito singolo.
MATPG ha ottenuto risultati simili a MAPLE.
Viene presentato un nuovo benchmark basato su MuJoCo.
Il benchmark è per il controllo continuo multi-compito.
Il lavoro è pubblicato su arXiv.

Algoritmo TPG Multi-Azione per Apprendimento per Rinforzo Multi-Compito

Fatti principali

Entità

Istituzioni

Fonti