Solutori HJB Neurali Stabilizzati: Analisi degli Errori per RL Basato su Modelli
Un nuovo preprint su arXiv (2605.07116) presenta una teoria degli errori per un regime ibrido di solutori neurali informati dalla fisica applicati alle equazioni di Hamilton-Jacobi-Bellman (HJB) nell'apprendimento per rinforzo basato su modelli. Questo regime utilizza una rete neurale per rappresentare la funzione valore, operatori di valutazione delle politiche HJB alle differenze finite valutati tramite query della rete in punti spostati, e minimizzazione del residuo mediante collocazione continua casuale. Preserva la struttura di valutazione delle politiche alle differenze finite stabilizzata senza variabili di valore basate su griglia. Gli autori dimostrano una stima di stabilità L2 in popolazione per un passo di valutazione della politica con dinamiche apprese, separando l'errore residuo, l'errore iniziale e l'errore esterno. Il lavoro funge da ponte tra i metodi classici a griglia e le PINN a PDE continua, offrendo una base teorica per implementazioni pratiche.
Fatti principali
- Preprint arXiv 2605.07116
- Regime ibrido per solutori HJB neurali
- Funzione valore rappresentata da rete neurale
- Operatori di valutazione delle politiche alle differenze finite valutati in punti spostati
- Residui minimizzati mediante collocazione continua casuale
- Stima di stabilità L2 in popolazione dimostrata
- Limite di errore separa errori residuo, iniziale ed esterno
- Ponte tra metodi a griglia e PINN a PDE continua
Entità
Istituzioni
- arXiv