ARTFEED — Contemporary Art Intelligence

Quantizzazione Voronoi Guidata dal Critico Distilla le Politiche RL in Modelli Spiegabili

other · 2026-05-16

Un nuovo metodo, il Partizionamento dello Stato Voronoi Guidato dal Critico, affronta il compromesso tra prestazioni e interpretabilità nella distillazione di politiche di deep reinforcement learning. La distillazione tradizionale minimizza la distanza comportamentale ma ignora il valore dell'azione. Questo approccio agnostico al modello partiziona una politica black-box in regioni ottimizzate da modelli semplici tramite discesa del gradiente, utilizzando la rete del valore critico per aggiungere iterativamente sottopolitiche dove il valore è basso. Il quantizzatore Voronoi assegna funzioni lineari attraverso ricerche del vicino più prossimo.

Fatti principali

  • Introduce il Partizionamento dello Stato Voronoi Guidato dal Critico
  • Metodo agnostico al modello per distillare politiche di deep RL
  • Partiziona una politica black-box in regioni per l'ottimizzazione con modelli semplici
  • Utilizza la rete del valore critico per identificare regioni che necessitano di nuove sottopolitiche
  • Il quantizzatore Voronoi assegna funzioni lineari tramite ricerche del vicino più prossimo
  • Affronta il compromesso tra prestazioni e interpretabilità
  • Considera il valore dell'azione, a differenza della distillazione tradizionale
  • Pubblicato su arXiv con ID 2605.14897

Entità

Istituzioni

  • arXiv

Fonti