ARTFEED — Contemporary Art Intelligence

Il Reward Shaping Basato sulla Fisica Migliora la Gestione Energetica degli Edifici

other · 2026-05-28

Un nuovo metodo chiamato PIRS (Physics-Informed Reward Shaping) è stato sviluppato per sostituire i proxy di comfort arbitrari nell'apprendimento per rinforzo profondo per la gestione dell'energia negli edifici. Progettato specificamente per agenti Soft Actor-Critic (SAC), PIRS utilizza il modello Predicted Mean Vote (PMV) ISO 7730 per basare i segnali di comfort sui principi del benessere termico. Questa innovazione chiarisce le ricompense e fornisce un proxy di comfort conforme agli standard, mantenendo intatte le altre parti del processo di apprendimento. È stato valutato in CityLearn v2.1.2 durante la fase 1 della challenge 2022, dove un agente SAC centrale è stato addestrato per 50.000 passi, bilanciando con successo comfort degli occupanti, efficienza energetica e consapevolezza della rete.

Fatti principali

  • 1. PIRS sta per Physics-Informed Reward Shaping
  • 2. Sostituisce i proxy di comfort ad-hoc con la formulazione PMV ISO 7730
  • 3. Utilizzato in Soft Actor-Critic (SAC) per la gestione energetica degli edifici
  • 4. Valutato in CityLearn v2.1.2 challenge 2022 fase 1
  • 5. Agente SAC centrale addestrato per 50k passi
  • 6. Migliora l'interpretabilità delle ricompense
  • 7. Non modifica altri componenti del pipeline di apprendimento
  • 8. Affronta il comfort degli occupanti e l'efficienza energetica consapevole della rete

Entità

Fonti