GORMPO: Ottimizzazione della Politica Basata su Modello con Regolarizzazione Generativa OOD per RL Offline

other · 2026-05-26

Viene introdotto un nuovo algoritmo di reinforcement learning offline, Generative OOD-regularized Model-based Policy Optimization (GORMPO), per affrontare le azioni fuori distribuzione (OOD) in spazi stato-azione sparsi. Il metodo integra la stima generativa della densità nel RL basato su modello per limitare gli aggiornamenti della politica alle regioni ad alta densità del dataset, garantendo politiche offline più sicure. Lo studio confronta le capacità di rilevamento OOD di vari stimatori di densità e le loro prestazioni all'interno dell'algoritmo. L'articolo è pubblicato su arXiv con ID 2605.24405.

Fatti principali

1. GORMPO è un algoritmo di RL offline regolarizzato dalla densità.
2. Utilizza la modellazione generativa della densità per evitare azioni OOD.
3. Il metodo è mirato a spazi stato-azione sparsi.
4. Confronta il rilevamento OOD di diversi stimatori di densità.
5. L'articolo è disponibile su arXiv.
6. ID arXiv: 2605.24405.
7. L'approccio mira a garantire politiche offline sicure.
8. Lo studio esplora l'integrazione della stima della densità nel RL basato su modello.

GORMPO: Ottimizzazione della Politica Basata su Modello con Regolarizzazione Generativa OOD per RL Offline

Fatti principali

Entità

Istituzioni

Fonti