EfficientTDMPC migliora l'efficienza dei campioni nel controllo continuo
EfficientTDMPC è un nuovo metodo di apprendimento per rinforzo basato su modelli per il controllo continuo, costruito sulla famiglia TD-MPC. Migliora l'efficienza dei campioni riducendo gli errori di stima nell'obiettivo di ritorno del pianificatore attraverso un insieme di modelli dinamici e penalità di incertezza. Il metodo include anche miglioramenti pratici per la freschezza dei dati e l'efficienza computazionale, e beneficia di rapporti più elevati di aggiornamento rispetto ai dati.
Fatti principali
- EfficientTDMPC è un metodo di apprendimento per rinforzo basato su modelli per il controllo continuo.
- È costruito sulla famiglia di algoritmi TD-MPC.
- Utilizza un insieme di modelli dinamici per mediare le stime di ritorno.
- Applica una penalità di incertezza per evitare azioni con ritorni incerti.
- Include miglioramenti pratici per la freschezza dei dati nel buffer e la riduzione del carico computazionale.
- Beneficia di un rapporto aggiornamento-dati (UTD) più elevato.
- Il metodo mira a ridurre l'errore derivante da modelli appresi e reti di valore.
- È stato introdotto nell'articolo arXiv 2605.16692.
Entità
—