Rivisitare Adam per l'Apprendimento per Rinforzo in Streaming

other · 2026-05-11

Un nuovo studio sfida l'uso prevalente dei buffer di replay nell'apprendimento per rinforzo profondo, rivisitando l'apprendimento online da interazioni sequenziali. Gli autori scoprono che algoritmi consolidati come DQN e C51 funzionano bene senza buffer di replay se abbinati all'ottimizzatore Adam. Identificano due proprietà chiave di Adam che consentono aggiornamenti online stabili, basandosi sull'algoritmo StreamQ di Elsayed et al. (2024). Il lavoro suggerisce che sono possibili algoritmi adattivi più semplici ed efficienti.

Fatti principali

Imparare da interazioni sequenziali senza memorizzarle promette algoritmi più semplici.
Il deep RL ha fatto affidamento su buffer di replay o campionamento parallelo per gestire l'instabilità.
Elsayed et al. (2024) hanno introdotto StreamQ utilizzando tracce di idoneità e ottimizzazione modificata.
Questo lavoro indaga gli aggiornamenti di DQN e C51 in un contesto online.
DQN e C51 funzionano bene senza buffer di replay.
L'ottimizzatore Adam interagisce favorevolmente con gli aggiornamenti online.
Due proprietà di Adam consentono un apprendimento online stabile.
Lo studio è pubblicato su arXiv (2605.06764).

Rivisitare Adam per l'Apprendimento per Rinforzo in Streaming

Fatti principali

Entità

Istituzioni

Fonti