L'apprendimento semi-supervisionato potenzia il reward shaping nel RL sparso
Un nuovo metodo di apprendimento per rinforzo utilizza l'apprendimento semi-supervisionato e l'aumento dei dati per modellare le ricompense da transizioni a ricompensa zero, superando gli approcci supervisionati in compiti Atari e di manipolazione robotica, raggiungendo fino al doppio dei punteggi massimi in ambienti con ricompense sparse.
Fatti principali
- L'approccio proposto utilizza l'apprendimento semi-supervisionato per il reward shaping
- Una nuova tecnica di aumento dati a doppia entropia migliora le prestazioni
- Supera i metodi basati su supervisione nell'inferenza delle ricompense
- Raggiunge fino al doppio dei punteggi massimi in ambienti con ricompense sparse
- Testato su giochi Atari e compiti di manipolazione robotica
- Affronta la sfida dei segnali di ricompensa sparsi in scenari reali
- Apprende rappresentazioni dello spazio delle traiettorie da transizioni a ricompensa zero
Entità
—