DOSER: Rilevamento OOD Basato su Diffusione per RL Offline
Un nuovo framework chiamato DOSER (Diffusion-based OOD Detection and Selective Regularization) affronta la sovrastima delle azioni fuori distribuzione nell'apprendimento per rinforzo offline. A differenza dei metodi esistenti che penalizzano uniformemente i campioni non visti, DOSER utilizza due modelli di diffusione per catturare la politica comportamentale e la distribuzione degli stati, impiegando l'errore di ricostruzione con denoising a singolo passo come indicatore OOD. Distingue tra azioni OOD benefiche e dannose durante l'ottimizzazione della politica, evitando la soppressione di esplorazioni utili. L'approccio è dettagliato in arXiv:2605.08202.
Fatti principali
- DOSER sta per Diffusion-based OOD Detection and Selective Regularization.
- Utilizza due modelli di diffusione per la politica comportamentale e la distribuzione degli stati.
- L'errore di ricostruzione con denoising a singolo passo funge da indicatore OOD.
- Distingue le azioni OOD benefiche da quelle dannose.
- Affronta la sovrastima delle azioni OOD nell'RL offline.
- Pubblicato su arXiv con ID 2605.08202.
- Proposto come alternativa ai metodi di penalizzazione uniforme.
- Mira a evitare la soppressione di esplorazioni benefiche.
Entità
—