Metodi TD Differenziali Estesi all'Apprendimento per Rinforzo Episodico
Un nuovo articolo di ricerca propone un'estensione dei metodi differenziali di differenza temporale (TD) ai problemi di apprendimento per rinforzo episodico. I metodi TD differenziali, che si basano sul centraggio della ricompensa tramite la ricompensa media, erano precedentemente limitati a contesti a orizzonte infinito perché il centraggio della ricompensa può alterare la politica ottimale nei compiti episodici. Gli autori dimostrano che il loro TD differenziale generalizzato mantiene l'ordinamento delle politiche in caso di terminazione, consentendone così l'uso in problemi episodici. Mostrano anche l'equivalenza con una forma di TD lineare, ereditando garanzie teoriche. Il lavoro è motivato da studi recenti sulla normalizzazione nell'apprendimento per rinforzo profondo in streaming. L'articolo è disponibile su arXiv con identificatore 2605.04368.
Fatti principali
- I metodi TD differenziali sono algoritmi di RL basati sul valore per problemi a orizzonte infinito.
- Il centraggio della ricompensa mantiene i rendimenti limitati e rimuove l'offset indipendente dallo stato.
- Il centraggio della ricompensa può alterare la politica ottimale nei problemi episodici.
- La generalizzazione proposta mantiene l'ordinamento delle politiche in caso di terminazione.
- Il metodo è dimostrato equivalente a una forma di TD lineare.
- Il lavoro è motivato dalla normalizzazione nel RL profondo in streaming.
- L'articolo è disponibile su arXiv:2605.04368.
- La ricerca estende il TD differenziale ai problemi episodici.
Entità
Istituzioni
- arXiv