ARTFEED — Contemporary Art Intelligence

DOSER: Rilevamento OOD Basato su Diffusione per RL Offline

other · 2026-05-12

Un nuovo framework chiamato DOSER (Diffusion-based OOD Detection and Selective Regularization) affronta la sovrastima delle azioni fuori distribuzione nell'apprendimento per rinforzo offline. A differenza dei metodi esistenti che penalizzano uniformemente i campioni non visti, DOSER utilizza due modelli di diffusione per catturare la politica comportamentale e la distribuzione degli stati, impiegando l'errore di ricostruzione con denoising a singolo passo come indicatore OOD. Distingue tra azioni OOD benefiche e dannose durante l'ottimizzazione della politica, evitando la soppressione di esplorazioni utili. L'approccio è dettagliato in arXiv:2605.08202.

Fatti principali

  • DOSER sta per Diffusion-based OOD Detection and Selective Regularization.
  • Utilizza due modelli di diffusione per la politica comportamentale e la distribuzione degli stati.
  • L'errore di ricostruzione con denoising a singolo passo funge da indicatore OOD.
  • Distingue le azioni OOD benefiche da quelle dannose.
  • Affronta la sovrastima delle azioni OOD nell'RL offline.
  • Pubblicato su arXiv con ID 2605.08202.
  • Proposto come alternativa ai metodi di penalizzazione uniforme.
  • Mira a evitare la soppressione di esplorazioni benefiche.

Entità

Fonti