Il Deep Double Q-Learning migliora il Double DQN nei giochi Atari
Un nuovo approccio di deep reinforcement learning, noto come Deep Double Q-learning (DDQL), affronta il bias di sovrastima presente in Double DQN addestrando due distinte funzioni Q attraverso il metodo Double Q-learning. A differenza di Double DQN, che si basa su un'unica funzione azione-valore e mantiene stimatori correlati, DDQL separa completamente i processi di selezione e valutazione delle azioni. Questo algoritmo migliora la stabilità dell'addestramento utilizzando rapporti di replay ridotti, intervalli di aggiornamento della rete target più lunghi e l'incorporazione di layer condivisi. Testato su 57 giochi Atari 2600, DDQL ha superato Double DQN in 47 di questi giochi, mostrando un notevole miglioramento delle prestazioni complessive.
Fatti principali
- DDQL è introdotto come un algoritmo di deep RL che addestra esplicitamente due funzioni Q tramite Double Q-learning.
- Double DQN addestra solo una singola funzione azione-valore, portando a stimatori correlati e a una persistente sovrastima.
- DDQL utilizza rapporti di replay inferiori, intervalli di aggiornamento della rete target più lunghi e layer condivisi per la stabilità dell'addestramento.
- Gli esperimenti sono stati condotti su 57 giochi Atari 2600.
- DDQL ha superato Double DQN in 47 su 57 giochi.
- L'articolo è disponibile su arXiv con ID 2507.00275.
- Double Q-learning è un algoritmo di controllo classico che mitiga il bias di massimizzazione.
- DDQL adatta il disaccoppiamento del bootstrap target al deep reinforcement learning.
Entità
—