Ottimizzazione delle Politiche Ibride per Spazi di Azione Discreti-Continui
Un nuovo metodo di apprendimento per rinforzo, l'Ottimizzazione delle Politiche Ibride (HPO), affronta la sfida degli spazi di azione ibridi discreti-continui comuni in robotica, controllo e operazioni. I metodi standard di gradiente di policy model-free che utilizzano stimatori di funzione di punteggio soffrono di problemi di attribuzione del credito in ambienti ad alta dimensionalità. La simulazione differenziabile propaga all'indietro attraverso un simulatore ma produce gradienti distorti o non informativi per azioni discrete o dinamiche non lisce. HPO combina gradienti pathwise e di funzione di punteggio, propagando all'indietro attraverso il simulatore dove la levigatezza lo permette, per mantenere l'imparzialità. Il metodo è dettagliato in arXiv:2605.14297.
Fatti principali
- 1. HPO affronta spazi di azione ibridi discreti-continui
- 2. Gli stimatori standard di funzione di punteggio soffrono di problemi di attribuzione del credito
- 3. La simulazione differenziabile produce gradienti distorti per azioni discrete
- 4. HPO combina gradienti pathwise e di funzione di punteggio
- 5. HPO mantiene l'imparzialità
- 6. Il metodo è descritto in arXiv:2605.14297
- 7. Le applicazioni includono robotica, controllo e operazioni
Entità
—