Quantizzazione Voronoi Guidata dal Critico Distilla le Politiche RL in Modelli Spiegabili

other · 2026-05-16

Un nuovo metodo, il Partizionamento dello Stato Voronoi Guidato dal Critico, affronta il compromesso tra prestazioni e interpretabilità nella distillazione di politiche di deep reinforcement learning. La distillazione tradizionale minimizza la distanza comportamentale ma ignora il valore dell'azione. Questo approccio agnostico al modello partiziona una politica black-box in regioni ottimizzate da modelli semplici tramite discesa del gradiente, utilizzando la rete del valore critico per aggiungere iterativamente sottopolitiche dove il valore è basso. Il quantizzatore Voronoi assegna funzioni lineari attraverso ricerche del vicino più prossimo.

Fatti principali

Introduce il Partizionamento dello Stato Voronoi Guidato dal Critico
Metodo agnostico al modello per distillare politiche di deep RL
Partiziona una politica black-box in regioni per l'ottimizzazione con modelli semplici
Utilizza la rete del valore critico per identificare regioni che necessitano di nuove sottopolitiche
Il quantizzatore Voronoi assegna funzioni lineari tramite ricerche del vicino più prossimo
Affronta il compromesso tra prestazioni e interpretabilità
Considera il valore dell'azione, a differenza della distillazione tradizionale
Pubblicato su arXiv con ID 2605.14897

Quantizzazione Voronoi Guidata dal Critico Distilla le Politiche RL in Modelli Spiegabili

Fatti principali

Entità

Istituzioni

Fonti