LEO: Apprendimento Efficiente di Tutti gli Obiettivi per RL Condizionato dagli Obiettivi
I ricercatori propongono Learning Everything all at Once (LEO), un metodo per l'apprendimento per rinforzo condizionato dagli obiettivi che produce congiuntamente valori e azioni per ogni obiettivo in un unico passaggio di rete. Ciò consente aggiornamenti efficienti e paralleli di tutti gli obiettivi, superando l'inattuabilità computazionale del naive relabelling. LEO supera significativamente altri metodi su Craftax condizionato dagli obiettivi e si allinea ai baselines su compiti di controllo continuo, ottenendo un'accelerazione di oltre 250x rispetto al relabelling di tutti gli obiettivi. L'approccio massimizza l'estrazione di informazioni da ogni transizione apprendendo off-policy rispetto a ogni obiettivo.
Fatti principali
- LEO produce congiuntamente valori e azioni per ogni obiettivo in una volta sola.
- Consente aggiornamenti efficienti e paralleli di tutti gli obiettivi con un unico passaggio di rete.
- Il metodo supera significativamente altri su Craftax condizionato dagli obiettivi.
- È competitivo con i baselines esistenti su ambienti di controllo continuo.
- LEO raggiunge un'accelerazione >250x rispetto al relabelling di tutti gli obiettivi.
- L'apprendimento di tutti gli obiettivi utilizza ogni transizione per l'apprendimento off-policy rispetto a ogni obiettivo.
- Il naive relabelling è computazionalmente inattuabile.
- Gli agenti di apprendimento per rinforzo condizionato dagli obiettivi tipicamente scartano la maggior parte delle informazioni dalle traiettorie.
Entità
—