SISL: Apprendimento di Abilità Auto-Migliorante per un Meta-Apprendimento per Rinforzo Robusto
Un nuovo approccio noto come Self-Improving Skill Learning (SISL) affronta il problema delle dimostrazioni offline rumorose nell'ambito del meta-apprendimento per rinforzo basato su abilità. Mentre il meta-RL consente un rapido adattamento a compiti sconosciuti, incontra difficoltà in scenari a lungo orizzonte. I metodi basati su abilità suddividono le sequenze stato-azione in abilità riutilizzabili attraverso un processo decisionale gerarchico, ma sono particolarmente vulnerabili al rumore nei dataset offline. SISL migliora il raffinamento delle abilità in modo indipendente attraverso politiche separate di miglioramento ad alto livello e delle abilità, incorporando la prioritizzazione delle abilità tramite il rietichettamento del massimo ritorno per concentrare gli aggiornamenti sulle traiettorie di compito rilevanti. Questa strategia riduce l'impatto del rumore, risultando in un adattamento più robusto e stabile. I risultati sperimentali indicano che SISL supera costantemente altre tecniche di meta-RL basate su abilità in vari compiti a lungo orizzonte.
Fatti principali
- 1. SISL è un nuovo metodo per il meta-apprendimento per rinforzo basato su abilità.
- 2. Affronta il problema delle dimostrazioni offline rumorose.
- 3. Utilizza politiche disaccoppiate di miglioramento ad alto livello e delle abilità.
- 4. La prioritizzazione delle abilità è ottenuta tramite il rietichettamento del massimo ritorno.
- 5. SISL concentra gli aggiornamenti sulle traiettorie rilevanti per il compito.
- 6. Raggiunge un adattamento robusto e stabile con dati rumorosi.
- 7. SISL supera altri metodi di meta-RL basati su abilità.
- 8. Il metodo è valutato su diversi compiti a lungo orizzonte.
Entità
—