Spazi di Comportamento Gerarchici: Un Nuovo Metodo di RL Potenzia l'Esplorazione in NetHack
Lavori recenti nell'apprendimento per rinforzo gerarchico (RL) sono stati scalati a miliardi di passi temporali utilizzando funzioni di ricompensa predefinite per le opzioni. Un nuovo metodo, Spazi di Comportamento Gerarchici (HBS), sostituisce le singole funzioni di ricompensa per opzione con combinazioni lineari, consentendo un insieme di politiche più espressivo. HBS è stato valutato sul NetHack Learning Environment, mostrando prestazioni elevate. Gli esperimenti suggeriscono che i benefici della gerarchia derivano da una maggiore esplorazione piuttosto che da un ragionamento a lungo termine, sfidando la saggezza convenzionale.
Fatti principali
- HBS utilizza combinazioni lineari di funzioni di ricompensa per indurre uno spazio di comportamenti.
- Il metodo è stato valutato sul NetHack Learning Environment.
- I benefici della gerarchia in HBS derivano da una maggiore esplorazione, non dal ragionamento a lungo termine.
- Il lavoro si basa sull'apprendimento per rinforzo gerarchico con funzioni di ricompensa predefinite per le opzioni.
Entità
—