La Pianificazione Goal-Space Migliora l'Apprendimento per Rinforzo nella Programmazione della Risposta alla Domanda
Un team di ricercatori ha combinato la Pianificazione Goal-Space (GSP) con il Deep Deterministic Policy Gradient (DDPG) per affrontare i vincoli terminali nella programmazione della risposta alla domanda basata sui dati per processi chimici elettrificati. Questo metodo innovativo utilizza modelli temporali astratti appresi su sotto-obiettivi discreti per migliorare la propagazione del valore su orizzonti estesi, affrontando le difficoltà di assegnazione del credito incontrate nell'apprendimento per rinforzo tradizionale. In una simulazione di un benchmark di separazione dell'aria, la tecnica ha dimostrato una migliore efficienza del campione, ha soddisfatto i requisiti di stoccaggio terminale e ha minimizzato le azioni di controllo miopi. Questa ricerca è disponibile su arXiv (2605.14741) nella categoria Ingegneria Elettrica e Scienze dei Sistemi > Sistemi e Controllo.
Fatti principali
- Pianificazione Goal-Space (GSP) integrata con Deep Deterministic Policy Gradient (DDPG)
- Affronta i vincoli terminali nella programmazione della risposta alla domanda
- Utilizza modelli temporali astratti appresi su sotto-obiettivi discreti
- Applicato a un benchmark simulato di separazione dell'aria
- Migliora l'efficienza del campione rispetto al DDPG standard
- Soddisfa i vincoli di stoccaggio terminale
- Mitiga il comportamento di controllo miope
- Pubblicato su arXiv (2605.14741)
Entità
Istituzioni
- arXiv