AdaGamma: Sconto Dipendente dallo Stato per l'Adattamento Temporale nell'Apprendimento per Rinforzo

ai-technology · 2026-05-09

AdaGamma è un metodo attore-critico profondo per lo sconto dipendente dallo stato nell'apprendimento per rinforzo. Apprende una funzione di sconto dipendente dallo stato insieme a un obiettivo di coerenza del rendimento per regolarizzare la struttura di backup, prevenendo instabilità e collasso dell'errore TD. Il metodo si integra sia in SAC che in PPO, mostrando miglioramenti consistenti su benchmark di controllo continuo e guadagni statisticamente significativi in un test A/B online. L'analisi teorica stabilisce proprietà di buona posa dell'operatore di Bellman indotto sotto condizioni opportune.

Fatti principali

AdaGamma è un metodo attore-critico profondo per lo sconto dipendente dallo stato.
Apprende una funzione di sconto dipendente dallo stato con un obiettivo di coerenza del rendimento.
Il metodo previene instabilità e collasso dell'errore TD.
Si integra sia in SAC che in PPO.
Mostra miglioramenti consistenti su benchmark di controllo continuo.
Ottiene guadagni statisticamente significativi in un test A/B online.
L'analisi teorica stabilisce la buona posa dell'operatore di Bellman.
Pubblicato su arXiv con ID 2605.06149.

AdaGamma: Sconto Dipendente dallo Stato per l'Adattamento Temporale nell'Apprendimento per Rinforzo

Fatti principali

Entità

Istituzioni

Fonti