Analisi degli errori del Q-learning con separazione dei segni
Un nuovo studio appena pubblicato su arXiv presenta un'analisi degli errori per il Q-learning con passo costante, concentrandosi su come gli errori positivi e negativi si comportano diversamente. Utilizza un approccio a sistemi commutati, in cui gli errori negativi sono vincolati da un sistema lineare tempo-invariante legato a una politica ottimale fissa, mentre gli errori positivi sono gestiti da un sistema lineare commutato. Questa ricerca rivela che esiste uno squilibrio significativo nelle dinamiche degli errori a causa di sovrastime—in particolare, il massimo di Bellman è in grado di amplificare gli errori positivi, mentre quelli negativi subiscono restrizioni. Inoltre, lo studio fornisce limiti in tempo finito rilevanti sia per situazioni deterministiche che stocastiche con passo costante.
Fatti principali
- L'articolo è su arXiv con ID 2605.16103.
- Presenta un'analisi degli errori in tempo finito con separazione dei segni per il Q-learning.
- L'analisi utilizza una rappresentazione a sistemi commutati.
- L'errore è scomposto in parti negative e positive per componente.
- La parte negativa è dominata da un sistema LTI di confronto inferiore.
- La parte positiva è controllata da un sistema lineare commutato.
- Viene identificata un'asimmetria indotta dal massimo nelle dinamiche degli errori del Q-learning.
- Vengono forniti limiti in tempo finito per contesti deterministici e stocastici.
Entità
Istituzioni
- arXiv