Quantizzazione Voronoi Guidata dal Critico Distilla le Politiche RL in Modelli Spiegabili
Un nuovo metodo, il Partizionamento dello Stato Voronoi Guidato dal Critico, affronta il compromesso tra prestazioni e interpretabilità nella distillazione di politiche di deep reinforcement learning. La distillazione tradizionale minimizza la distanza comportamentale ma ignora il valore dell'azione. Questo approccio agnostico al modello partiziona una politica black-box in regioni ottimizzate da modelli semplici tramite discesa del gradiente, utilizzando la rete del valore critico per aggiungere iterativamente sottopolitiche dove il valore è basso. Il quantizzatore Voronoi assegna funzioni lineari attraverso ricerche del vicino più prossimo.
Fatti principali
- Introduce il Partizionamento dello Stato Voronoi Guidato dal Critico
- Metodo agnostico al modello per distillare politiche di deep RL
- Partiziona una politica black-box in regioni per l'ottimizzazione con modelli semplici
- Utilizza la rete del valore critico per identificare regioni che necessitano di nuove sottopolitiche
- Il quantizzatore Voronoi assegna funzioni lineari tramite ricerche del vicino più prossimo
- Affronta il compromesso tra prestazioni e interpretabilità
- Considera il valore dell'azione, a differenza della distillazione tradizionale
- Pubblicato su arXiv con ID 2605.14897
Entità
Istituzioni
- arXiv