Il Deep Double Q-Learning migliora il Double DQN nei giochi Atari

ai-technology · 2026-05-18

Un nuovo approccio di deep reinforcement learning, noto come Deep Double Q-learning (DDQL), affronta il bias di sovrastima presente in Double DQN addestrando due distinte funzioni Q attraverso il metodo Double Q-learning. A differenza di Double DQN, che si basa su un'unica funzione azione-valore e mantiene stimatori correlati, DDQL separa completamente i processi di selezione e valutazione delle azioni. Questo algoritmo migliora la stabilità dell'addestramento utilizzando rapporti di replay ridotti, intervalli di aggiornamento della rete target più lunghi e l'incorporazione di layer condivisi. Testato su 57 giochi Atari 2600, DDQL ha superato Double DQN in 47 di questi giochi, mostrando un notevole miglioramento delle prestazioni complessive.

Fatti principali

DDQL è introdotto come un algoritmo di deep RL che addestra esplicitamente due funzioni Q tramite Double Q-learning.
Double DQN addestra solo una singola funzione azione-valore, portando a stimatori correlati e a una persistente sovrastima.
DDQL utilizza rapporti di replay inferiori, intervalli di aggiornamento della rete target più lunghi e layer condivisi per la stabilità dell'addestramento.
Gli esperimenti sono stati condotti su 57 giochi Atari 2600.
DDQL ha superato Double DQN in 47 su 57 giochi.
L'articolo è disponibile su arXiv con ID 2507.00275.
Double Q-learning è un algoritmo di controllo classico che mitiga il bias di massimizzazione.
DDQL adatta il disaccoppiamento del bootstrap target al deep reinforcement learning.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18