Normalizzazione dell'Osservazione Personalizzata per l'Apprendimento per Rinforzo Federato Eterogeneo
Un approccio innovativo noto come normalizzazione dell'osservazione personalizzata (PON) affronta il problema dell'eterogeneità nell'apprendimento per rinforzo federato (FedRL). In questo quadro, diversi agenti sviluppano una politica unificata senza scambiare dati grezzi; tuttavia, ambienti variati portano a dinamiche di transizione di stato differenti e aggiornamenti dei parametri disomogenei. PON consente a ciascun agente di standardizzare localmente gli input di stato grezzi utilizzando una media mobile e una varianza continuamente aggiornate, garantendo una scalatura uniforme che evita la dominanza durante l'aggregazione. L'inefficacia della condivisione dei parametri di normalizzazione tra gli agenti deriva dalle loro distinte distribuzioni di input locali, sottolineando la necessità di statistiche personalizzate. Esperimenti condotti su diversi compiti MuJoCo eterogenei convalidano l'efficacia di questo metodo.
Fatti principali
- L'apprendimento per rinforzo federato consente l'addestramento collaborativo senza condividere dati grezzi.
- Ambienti eterogenei causano distribuzioni di input non identiche e aggiornamenti sbilanciati.
- PON normalizza gli input di stato localmente utilizzando media mobile e varianza.
- La condivisione dei parametri di normalizzazione tra gli agenti è inefficace.
- Esperimenti condotti su compiti MuJoCo eterogenei.
- Articolo pubblicato su arXiv con ID 2605.27385.
- Il metodo garantisce una scalatura coerente senza oscuramento durante l'aggregazione.
- Le statistiche personalizzate sono necessarie a causa delle diverse distribuzioni di input locali.
Entità
Istituzioni
- arXiv