Qreg+NWLU: Nuovo Metodo di Data Rehearsal per l'Apprendimento Continuo per Rinforzo

other · 2026-05-23

Uno studio recente pubblicato su arXiv (2605.22454) introduce Qreg+NWLU, una tecnica volta a ridurre l'oblio catastrofico nell'Apprendimento Continuo per Rinforzo (CRL) tramite data rehearsal basato sui valori. I metodi CRL tradizionali enfatizzano tipicamente approcci basati sul gradiente della politica e regolarizzano solo gli attori, trascurando l'approssimazione della funzione valore. I ricercatori colmano questa lacuna esplorando il data rehearsal per Deep Q-Networks, utilizzando la regolarizzazione dei Q-value in ambienti con sequenze di compiti ricorrenti. Qreg+NWLU presenta due innovazioni chiave: un processo continuo di data rehearsal che raccoglie e aggiorna attivamente i Q-value memorizzati durante l'addestramento, e la regolarizzazione 'No-Wait', che entra in vigore immediatamente anziché dopo il compito iniziale. Lo studio nota che gli ambienti multi-ciclici intensificano l'oblio e la plasticità, una sfida reale significativa ma poco esaminata.

Fatti principali

Titolo del paper: Don't Forget the Critic: Value-Based Data Rehearsal for Multi-Cyclic Continual Reinforcement Learning
ID arXiv: 2605.22454
Tipo di annuncio: cross
Propone il metodo Qreg+NWLU
Affronta l'oblio catastrofico nel CRL
Si concentra sull'approssimazione della funzione valore tramite data rehearsal
Utilizza Deep Q-Networks con regolarizzazione dei Q-value
Introduce data rehearsal continuo e regolarizzazione No-Wait
Si rivolge ad ambienti multi-ciclici con sequenze di compiti ripetuti

Qreg+NWLU: Nuovo Metodo di Data Rehearsal per l'Apprendimento Continuo per Rinforzo

Fatti principali

Entità

Istituzioni

Fonti