AdaGamma: Sconto Dipendente dallo Stato per l'Adattamento Temporale nell'Apprendimento per Rinforzo
AdaGamma è un metodo attore-critico profondo per lo sconto dipendente dallo stato nell'apprendimento per rinforzo. Apprende una funzione di sconto dipendente dallo stato insieme a un obiettivo di coerenza del rendimento per regolarizzare la struttura di backup, prevenendo instabilità e collasso dell'errore TD. Il metodo si integra sia in SAC che in PPO, mostrando miglioramenti consistenti su benchmark di controllo continuo e guadagni statisticamente significativi in un test A/B online. L'analisi teorica stabilisce proprietà di buona posa dell'operatore di Bellman indotto sotto condizioni opportune.
Fatti principali
- AdaGamma è un metodo attore-critico profondo per lo sconto dipendente dallo stato.
- Apprende una funzione di sconto dipendente dallo stato con un obiettivo di coerenza del rendimento.
- Il metodo previene instabilità e collasso dell'errore TD.
- Si integra sia in SAC che in PPO.
- Mostra miglioramenti consistenti su benchmark di controllo continuo.
- Ottiene guadagni statisticamente significativi in un test A/B online.
- L'analisi teorica stabilisce la buona posa dell'operatore di Bellman.
- Pubblicato su arXiv con ID 2605.06149.
Entità
Istituzioni
- arXiv