Solutori HJB Neurali Stabilizzati: Analisi degli Errori per RL Basato su Modelli

other · 2026-05-11

Un nuovo preprint su arXiv (2605.07116) presenta una teoria degli errori per un regime ibrido di solutori neurali informati dalla fisica applicati alle equazioni di Hamilton-Jacobi-Bellman (HJB) nell'apprendimento per rinforzo basato su modelli. Questo regime utilizza una rete neurale per rappresentare la funzione valore, operatori di valutazione delle politiche HJB alle differenze finite valutati tramite query della rete in punti spostati, e minimizzazione del residuo mediante collocazione continua casuale. Preserva la struttura di valutazione delle politiche alle differenze finite stabilizzata senza variabili di valore basate su griglia. Gli autori dimostrano una stima di stabilità L2 in popolazione per un passo di valutazione della politica con dinamiche apprese, separando l'errore residuo, l'errore iniziale e l'errore esterno. Il lavoro funge da ponte tra i metodi classici a griglia e le PINN a PDE continua, offrendo una base teorica per implementazioni pratiche.

Fatti principali

Preprint arXiv 2605.07116
Regime ibrido per solutori HJB neurali
Funzione valore rappresentata da rete neurale
Operatori di valutazione delle politiche alle differenze finite valutati in punti spostati
Residui minimizzati mediante collocazione continua casuale
Stima di stabilità L2 in popolazione dimostrata
Limite di errore separa errori residuo, iniziale ed esterno
Ponte tra metodi a griglia e PINN a PDE continua

Solutori HJB Neurali Stabilizzati: Analisi degli Errori per RL Basato su Modelli

Fatti principali

Entità

Istituzioni

Fonti