Il Campionamento a Posteriori Migliora la Generalizzazione dell'Apprendimento per Rinforzo Offline
Un nuovo articolo su arXiv (2605.07393) introduce l'Ottimizzazione delle Politiche basata sul Campionamento a Posteriori (PSPO) per l'apprendimento per rinforzo offline basato su modelli. PSPO affronta il compromesso tra generalizzazione e robustezza formulando la modellazione della dinamica come inferenza bayesiana, producendo un a posteriori che quantifica la fedeltà del modello. Utilizza il campionamento a posteriori e l'ottimizzazione vincolata delle politiche per sfruttare le transizioni fuori distribuzione coerenti con la dinamica per la generalizzazione, prevenendo al contempo lo sfruttamento. L'approccio mira a superare l'eccessiva regolarizzazione pessimistica comune nei metodi esistenti.
Fatti principali
- Articolo disponibile su arXiv con ID 2605.07393
- Propone PSPO (Ottimizzazione delle Politiche basata sul Campionamento a Posteriori)
- Affronta il compromesso tra generalizzazione e robustezza nell'apprendimento per rinforzo offline
- Utilizza l'inferenza bayesiana per la modellazione della dinamica
- Impiega il campionamento a posteriori e l'ottimizzazione vincolata delle politiche
- Sfrutta le transizioni fuori distribuzione coerenti con la dinamica
- Mira a ridurre l'eccessiva regolarizzazione pessimistica
Entità
Istituzioni
- arXiv