Indagine sulle strategie di esplorazione nell'apprendimento per rinforzo profondo
Un aggiornato studio tecnico sull'apprendimento per rinforzo profondo, datato 17 giugno 2020, esamina gli approcci per conciliare esplorazione e sfruttamento. Sottolinea tecniche come epsilon-greedy, Upper Confidence Bounds, esplorazione di Boltzmann e campionamento di Thompson. L'indagine evidenzia sfide significative, tra cui il problema dell'esplorazione difficile in Montezuma's Revenge e il problema Noisy-TV identificato da Burda et al. (2018). Discute inoltre le ricompense intrinseche come incentivi all'esplorazione, concentrandosi sui metodi per scoprire nuovi stati. L'analisi include approcci basati sul conteggio come CTS e PixelCNN, metodi guidati dalla previsione che utilizzano dinamiche forward, e framework come Intelligent Adaptive Curiosity (IAC) e Intrinsic Curiosity Module (ICM). Inoltre, esamina algoritmi di esplorazione diretta come Go-Explore e metodi basati sul valore Q come Bootstrapped DQN, citando ricerche di Burda, Edwards & Pathak et al. (2018) e Agent57.
Fatti principali
- L'indagine è stata aggiornata il 17 giugno 2020.
- Esplorazione contro sfruttamento è un argomento cruciale nell'Apprendimento per Rinforzo.
- Le strategie classiche di esplorazione includono epsilon-greedy, Upper Confidence Bounds, esplorazione di Boltzmann e campionamento di Thompson.
- Il problema dell'esplorazione difficile riguarda ambienti con ricompense sparse o ingannevoli, come Montezuma's Revenge in Atari.
- Il problema Noisy-TV, introdotto da Burda et al. (2018), descrive agenti distratti da rumore imprevedibile.
- Le ricompense intrinseche, ispirate dalla psicologia, sono utilizzate come bonus di esplorazione.
- I metodi di esplorazione basati sul conteggio utilizzano modelli di densità o hashing per stimare la novità degli stati.
- L'esplorazione basata sulla previsione utilizza modelli di dinamiche forward, come in ICM e VIME.
- I metodi basati sulla memoria includono NGU ed Episodic Curiosity (EC).
- Gli algoritmi di esplorazione diretta includono Go-Explore.
- Le tecniche di esplorazione basate sul valore Q includono Bootstrapped DQN.
- I framework di opzioni variazionali includono VIC, VALOR e DIAYN.
- Agent57 ha superato il benchmark umano di Atari.
- L'indagine cita oltre 30 articoli di ricerca.
Entità
Istituzioni
- OpenAI