ARTFEED — Contemporary Art Intelligence

AdaGamma: Sconto Dipendente dallo Stato per l'Adattamento Temporale nell'Apprendimento per Rinforzo

ai-technology · 2026-05-09

AdaGamma è un metodo attore-critico profondo per lo sconto dipendente dallo stato nell'apprendimento per rinforzo. Apprende una funzione di sconto dipendente dallo stato insieme a un obiettivo di coerenza del rendimento per regolarizzare la struttura di backup, prevenendo instabilità e collasso dell'errore TD. Il metodo si integra sia in SAC che in PPO, mostrando miglioramenti consistenti su benchmark di controllo continuo e guadagni statisticamente significativi in un test A/B online. L'analisi teorica stabilisce proprietà di buona posa dell'operatore di Bellman indotto sotto condizioni opportune.

Fatti principali

  • AdaGamma è un metodo attore-critico profondo per lo sconto dipendente dallo stato.
  • Apprende una funzione di sconto dipendente dallo stato con un obiettivo di coerenza del rendimento.
  • Il metodo previene instabilità e collasso dell'errore TD.
  • Si integra sia in SAC che in PPO.
  • Mostra miglioramenti consistenti su benchmark di controllo continuo.
  • Ottiene guadagni statisticamente significativi in un test A/B online.
  • L'analisi teorica stabilisce la buona posa dell'operatore di Bellman.
  • Pubblicato su arXiv con ID 2605.06149.

Entità

Istituzioni

  • arXiv

Fonti