ARTFEED — Contemporary Art Intelligence

LEO: Apprendimento Efficiente di Tutti gli Obiettivi per RL Condizionato dagli Obiettivi

other · 2026-05-25

I ricercatori propongono Learning Everything all at Once (LEO), un metodo per l'apprendimento per rinforzo condizionato dagli obiettivi che produce congiuntamente valori e azioni per ogni obiettivo in un unico passaggio di rete. Ciò consente aggiornamenti efficienti e paralleli di tutti gli obiettivi, superando l'inattuabilità computazionale del naive relabelling. LEO supera significativamente altri metodi su Craftax condizionato dagli obiettivi e si allinea ai baselines su compiti di controllo continuo, ottenendo un'accelerazione di oltre 250x rispetto al relabelling di tutti gli obiettivi. L'approccio massimizza l'estrazione di informazioni da ogni transizione apprendendo off-policy rispetto a ogni obiettivo.

Fatti principali

  • LEO produce congiuntamente valori e azioni per ogni obiettivo in una volta sola.
  • Consente aggiornamenti efficienti e paralleli di tutti gli obiettivi con un unico passaggio di rete.
  • Il metodo supera significativamente altri su Craftax condizionato dagli obiettivi.
  • È competitivo con i baselines esistenti su ambienti di controllo continuo.
  • LEO raggiunge un'accelerazione >250x rispetto al relabelling di tutti gli obiettivi.
  • L'apprendimento di tutti gli obiettivi utilizza ogni transizione per l'apprendimento off-policy rispetto a ogni obiettivo.
  • Il naive relabelling è computazionalmente inattuabile.
  • Gli agenti di apprendimento per rinforzo condizionato dagli obiettivi tipicamente scartano la maggior parte delle informazioni dalle traiettorie.

Entità

Fonti