Indagine sulle strategie di esplorazione nell'apprendimento per rinforzo profondo

publication · 2026-04-14

Un aggiornato studio tecnico sull'apprendimento per rinforzo profondo, datato 17 giugno 2020, esamina gli approcci per conciliare esplorazione e sfruttamento. Sottolinea tecniche come epsilon-greedy, Upper Confidence Bounds, esplorazione di Boltzmann e campionamento di Thompson. L'indagine evidenzia sfide significative, tra cui il problema dell'esplorazione difficile in Montezuma's Revenge e il problema Noisy-TV identificato da Burda et al. (2018). Discute inoltre le ricompense intrinseche come incentivi all'esplorazione, concentrandosi sui metodi per scoprire nuovi stati. L'analisi include approcci basati sul conteggio come CTS e PixelCNN, metodi guidati dalla previsione che utilizzano dinamiche forward, e framework come Intelligent Adaptive Curiosity (IAC) e Intrinsic Curiosity Module (ICM). Inoltre, esamina algoritmi di esplorazione diretta come Go-Explore e metodi basati sul valore Q come Bootstrapped DQN, citando ricerche di Burda, Edwards & Pathak et al. (2018) e Agent57.

Fatti principali

L'indagine è stata aggiornata il 17 giugno 2020.
Esplorazione contro sfruttamento è un argomento cruciale nell'Apprendimento per Rinforzo.
Le strategie classiche di esplorazione includono epsilon-greedy, Upper Confidence Bounds, esplorazione di Boltzmann e campionamento di Thompson.
Il problema dell'esplorazione difficile riguarda ambienti con ricompense sparse o ingannevoli, come Montezuma's Revenge in Atari.
Il problema Noisy-TV, introdotto da Burda et al. (2018), descrive agenti distratti da rumore imprevedibile.
Le ricompense intrinseche, ispirate dalla psicologia, sono utilizzate come bonus di esplorazione.
I metodi di esplorazione basati sul conteggio utilizzano modelli di densità o hashing per stimare la novità degli stati.
L'esplorazione basata sulla previsione utilizza modelli di dinamiche forward, come in ICM e VIME.
I metodi basati sulla memoria includono NGU ed Episodic Curiosity (EC).
Gli algoritmi di esplorazione diretta includono Go-Explore.
Le tecniche di esplorazione basate sul valore Q includono Bootstrapped DQN.
I framework di opzioni variazionali includono VIC, VALOR e DIAYN.
Agent57 ha superato il benchmark umano di Atari.
L'indagine cita oltre 30 articoli di ricerca.

Indagine sulle strategie di esplorazione nell'apprendimento per rinforzo profondo

Fatti principali

Entità

Istituzioni

Fonti