LEO: Apprendimento Efficiente di Tutti gli Obiettivi per RL Condizionato dagli Obiettivi

other · 2026-05-25

I ricercatori propongono Learning Everything all at Once (LEO), un metodo per l'apprendimento per rinforzo condizionato dagli obiettivi che produce congiuntamente valori e azioni per ogni obiettivo in un unico passaggio di rete. Ciò consente aggiornamenti efficienti e paralleli di tutti gli obiettivi, superando l'inattuabilità computazionale del naive relabelling. LEO supera significativamente altri metodi su Craftax condizionato dagli obiettivi e si allinea ai baselines su compiti di controllo continuo, ottenendo un'accelerazione di oltre 250x rispetto al relabelling di tutti gli obiettivi. L'approccio massimizza l'estrazione di informazioni da ogni transizione apprendendo off-policy rispetto a ogni obiettivo.

Fatti principali

LEO produce congiuntamente valori e azioni per ogni obiettivo in una volta sola.
Consente aggiornamenti efficienti e paralleli di tutti gli obiettivi con un unico passaggio di rete.
Il metodo supera significativamente altri su Craftax condizionato dagli obiettivi.
È competitivo con i baselines esistenti su ambienti di controllo continuo.
LEO raggiunge un'accelerazione >250x rispetto al relabelling di tutti gli obiettivi.
L'apprendimento di tutti gli obiettivi utilizza ogni transizione per l'apprendimento off-policy rispetto a ogni obiettivo.
Il naive relabelling è computazionalmente inattuabile.
Gli agenti di apprendimento per rinforzo condizionato dagli obiettivi tipicamente scartano la maggior parte delle informazioni dalle traiettorie.

Entità

—

Fonti

arXiv cs.AI — 2026-05-25