Il Reward Shaping Basato sulla Fisica Migliora la Gestione Energetica degli Edifici
Un nuovo metodo chiamato PIRS (Physics-Informed Reward Shaping) è stato sviluppato per sostituire i proxy di comfort arbitrari nell'apprendimento per rinforzo profondo per la gestione dell'energia negli edifici. Progettato specificamente per agenti Soft Actor-Critic (SAC), PIRS utilizza il modello Predicted Mean Vote (PMV) ISO 7730 per basare i segnali di comfort sui principi del benessere termico. Questa innovazione chiarisce le ricompense e fornisce un proxy di comfort conforme agli standard, mantenendo intatte le altre parti del processo di apprendimento. È stato valutato in CityLearn v2.1.2 durante la fase 1 della challenge 2022, dove un agente SAC centrale è stato addestrato per 50.000 passi, bilanciando con successo comfort degli occupanti, efficienza energetica e consapevolezza della rete.
Fatti principali
- 1. PIRS sta per Physics-Informed Reward Shaping
- 2. Sostituisce i proxy di comfort ad-hoc con la formulazione PMV ISO 7730
- 3. Utilizzato in Soft Actor-Critic (SAC) per la gestione energetica degli edifici
- 4. Valutato in CityLearn v2.1.2 challenge 2022 fase 1
- 5. Agente SAC centrale addestrato per 50k passi
- 6. Migliora l'interpretabilità delle ricompense
- 7. Non modifica altri componenti del pipeline di apprendimento
- 8. Affronta il comfort degli occupanti e l'efficienza energetica consapevole della rete
Entità
—