DOSER: Rilevamento OOD Basato su Diffusione per RL Offline

other · 2026-05-12

Un nuovo framework chiamato DOSER (Diffusion-based OOD Detection and Selective Regularization) affronta la sovrastima delle azioni fuori distribuzione nell'apprendimento per rinforzo offline. A differenza dei metodi esistenti che penalizzano uniformemente i campioni non visti, DOSER utilizza due modelli di diffusione per catturare la politica comportamentale e la distribuzione degli stati, impiegando l'errore di ricostruzione con denoising a singolo passo come indicatore OOD. Distingue tra azioni OOD benefiche e dannose durante l'ottimizzazione della politica, evitando la soppressione di esplorazioni utili. L'approccio è dettagliato in arXiv:2605.08202.

Fatti principali

DOSER sta per Diffusion-based OOD Detection and Selective Regularization.
Utilizza due modelli di diffusione per la politica comportamentale e la distribuzione degli stati.
L'errore di ricostruzione con denoising a singolo passo funge da indicatore OOD.
Distingue le azioni OOD benefiche da quelle dannose.
Affronta la sovrastima delle azioni OOD nell'RL offline.
Pubblicato su arXiv con ID 2605.08202.
Proposto come alternativa ai metodi di penalizzazione uniforme.
Mira a evitare la soppressione di esplorazioni benefiche.

Entità

—

Fonti

arXiv cs.AI — 2026-05-12