Astrazione per l'Apprendimento per Rinforzo Offline Orientato agli Obiettivi
Un nuovo articolo su arXiv propone che le politiche gerarchiche nell'apprendimento per rinforzo offline orientato agli obiettivi (GCRL) consentano non solo l'astrazione temporale, ma anche l'astrazione assoluta, permettendo agli agenti di riutilizzare l'esperienza in contesti simili dello spazio degli stati. Gli autori introducono opzioni relativizzate e rappresentazioni distinte per diversi livelli gerarchici, insieme a due semplici algoritmi per apprendere queste opzioni e astrarre dal sistema di riferimento assoluto. Gli esperimenti mostrano che questi bias induttivi migliorano significativamente le prestazioni nel GCRL offline.
Fatti principali
- Articolo intitolato 'Abstraction for Offline Goal-Conditioned Reinforcement Learning'
- Inviato ad arXiv il 27 maggio 2025
- Si concentra sui Processi Decisionali di Markov (MDP) nell'Apprendimento per Rinforzo Orientato agli Obiettivi (GCRL)
- Dimostra che la gerarchia consente l'astrazione assoluta oltre all'astrazione temporale
- Introduce opzioni relativizzate e rappresentazioni distinte per diversi livelli gerarchici
- Propone due semplici algoritmi per apprendere opzioni relativizzate e astrarre dal sistema di riferimento assoluto
- Gli esperimenti mostrano un miglioramento significativo delle prestazioni nel GCRL offline
- ID arXiv: 2605.22711
Entità
Istituzioni
- arXiv