Astrazione per l'Apprendimento per Rinforzo Offline Orientato agli Obiettivi

publication · 2026-05-23

Un nuovo articolo su arXiv propone che le politiche gerarchiche nell'apprendimento per rinforzo offline orientato agli obiettivi (GCRL) consentano non solo l'astrazione temporale, ma anche l'astrazione assoluta, permettendo agli agenti di riutilizzare l'esperienza in contesti simili dello spazio degli stati. Gli autori introducono opzioni relativizzate e rappresentazioni distinte per diversi livelli gerarchici, insieme a due semplici algoritmi per apprendere queste opzioni e astrarre dal sistema di riferimento assoluto. Gli esperimenti mostrano che questi bias induttivi migliorano significativamente le prestazioni nel GCRL offline.

Fatti principali

Articolo intitolato 'Abstraction for Offline Goal-Conditioned Reinforcement Learning'
Inviato ad arXiv il 27 maggio 2025
Si concentra sui Processi Decisionali di Markov (MDP) nell'Apprendimento per Rinforzo Orientato agli Obiettivi (GCRL)
Dimostra che la gerarchia consente l'astrazione assoluta oltre all'astrazione temporale
Introduce opzioni relativizzate e rappresentazioni distinte per diversi livelli gerarchici
Propone due semplici algoritmi per apprendere opzioni relativizzate e astrarre dal sistema di riferimento assoluto
Gli esperimenti mostrano un miglioramento significativo delle prestazioni nel GCRL offline
ID arXiv: 2605.22711

Astrazione per l'Apprendimento per Rinforzo Offline Orientato agli Obiettivi

Fatti principali

Entità

Istituzioni

Fonti