ALaM: Rete del Moltiplicatore Lagrangiano Aumentato per l'Apprendimento per Rinforzo Sicuro
Un nuovo framework chiamato Rete del Moltiplicatore Lagrangiano Aumentato (ALaM) affronta l'instabilità dell'addestramento nell'apprendimento per rinforzo con vincoli di sicurezza per stato. I metodi Lagrangiani standard richiedono un moltiplicatore distinto per ogni stato, approssimato da una rete neurale, ma la discesa del gradiente duale causa oscillazioni severe a causa della generalizzazione della rete. ALaM stabilizza l'apprendimento dei moltiplicatori dipendenti dallo stato, consentendo un RL più sicuro in applicazioni reali.
Fatti principali
- 1. La sicurezza è una sfida primaria nell'apprendimento per rinforzo nel mondo reale.
- 2. I vincoli per stato richiedono un moltiplicatore distinto per ogni stato.
- 3. Le reti di moltiplicatori approssimano questi moltiplicatori.
- 4. La discesa del gradiente duale standard causa oscillazioni severe nell'addestramento.
- 5. L'instabilità è aggravata dalla generalizzazione della rete.
- 6. Le tecniche di stabilizzazione esistenti sono progettate per moltiplicatori scalari.
- 7. Il framework ALaM è proposto per l'apprendimento stabile di moltiplicatori per stato.
- 8. Il lavoro proviene da arXiv:2605.00667.
Entità
—