Qreg+NWLU: Nuovo Metodo di Data Rehearsal per l'Apprendimento Continuo per Rinforzo
Uno studio recente pubblicato su arXiv (2605.22454) introduce Qreg+NWLU, una tecnica volta a ridurre l'oblio catastrofico nell'Apprendimento Continuo per Rinforzo (CRL) tramite data rehearsal basato sui valori. I metodi CRL tradizionali enfatizzano tipicamente approcci basati sul gradiente della politica e regolarizzano solo gli attori, trascurando l'approssimazione della funzione valore. I ricercatori colmano questa lacuna esplorando il data rehearsal per Deep Q-Networks, utilizzando la regolarizzazione dei Q-value in ambienti con sequenze di compiti ricorrenti. Qreg+NWLU presenta due innovazioni chiave: un processo continuo di data rehearsal che raccoglie e aggiorna attivamente i Q-value memorizzati durante l'addestramento, e la regolarizzazione 'No-Wait', che entra in vigore immediatamente anziché dopo il compito iniziale. Lo studio nota che gli ambienti multi-ciclici intensificano l'oblio e la plasticità, una sfida reale significativa ma poco esaminata.
Fatti principali
- Titolo del paper: Don't Forget the Critic: Value-Based Data Rehearsal for Multi-Cyclic Continual Reinforcement Learning
- ID arXiv: 2605.22454
- Tipo di annuncio: cross
- Propone il metodo Qreg+NWLU
- Affronta l'oblio catastrofico nel CRL
- Si concentra sull'approssimazione della funzione valore tramite data rehearsal
- Utilizza Deep Q-Networks con regolarizzazione dei Q-value
- Introduce data rehearsal continuo e regolarizzazione No-Wait
- Si rivolge ad ambienti multi-ciclici con sequenze di compiti ripetuti
Entità
Istituzioni
- arXiv