La Pianificazione Goal-Space Migliora l'Apprendimento per Rinforzo nella Programmazione della Risposta alla Domanda

other · 2026-05-16

Un team di ricercatori ha combinato la Pianificazione Goal-Space (GSP) con il Deep Deterministic Policy Gradient (DDPG) per affrontare i vincoli terminali nella programmazione della risposta alla domanda basata sui dati per processi chimici elettrificati. Questo metodo innovativo utilizza modelli temporali astratti appresi su sotto-obiettivi discreti per migliorare la propagazione del valore su orizzonti estesi, affrontando le difficoltà di assegnazione del credito incontrate nell'apprendimento per rinforzo tradizionale. In una simulazione di un benchmark di separazione dell'aria, la tecnica ha dimostrato una migliore efficienza del campione, ha soddisfatto i requisiti di stoccaggio terminale e ha minimizzato le azioni di controllo miopi. Questa ricerca è disponibile su arXiv (2605.14741) nella categoria Ingegneria Elettrica e Scienze dei Sistemi > Sistemi e Controllo.

Fatti principali

Pianificazione Goal-Space (GSP) integrata con Deep Deterministic Policy Gradient (DDPG)
Affronta i vincoli terminali nella programmazione della risposta alla domanda
Utilizza modelli temporali astratti appresi su sotto-obiettivi discreti
Applicato a un benchmark simulato di separazione dell'aria
Migliora l'efficienza del campione rispetto al DDPG standard
Soddisfa i vincoli di stoccaggio terminale
Mitiga il comportamento di controllo miope
Pubblicato su arXiv (2605.14741)

La Pianificazione Goal-Space Migliora l'Apprendimento per Rinforzo nella Programmazione della Risposta alla Domanda

Fatti principali

Entità

Istituzioni

Fonti