ARTFEED — Contemporary Art Intelligence

DROL: Routing Dinamico per RL Offline a un Passo

other · 2026-04-27

Un nuovo approccio chiamato DROL è stato introdotto dai ricercatori: si tratta di un attore a un passo condizionato da variabili latenti, progettato per l'apprendimento per rinforzo offline utilizzando un routing dinamico top-1. L'attore seleziona K azioni candidate da un prior latente vincolato per ogni stato, collegando ogni azione nel dataset al suo candidato più vicino. Aggiorna poi solo il vincitore selezionato tramite clonazione comportamentale e guida del critico. Questo metodo evita il compromesso presente nei processi di estrazione a un passo, che richiedono un singolo output per migliorare i valori Q pur rimanendo vicini a un endpoint fornito dall'insegnante. DROL mira a migliorare l'apprendimento per rinforzo offline senza la necessità di campionamento iterativo.

Fatti principali

  • DROL sta per attore a un passo condizionato da variabili latenti con routing dinamico top-1
  • L'attore campiona K azioni candidate da un prior latente vincolato per ogni stato
  • Ogni azione del dataset è assegnata al suo candidato più vicino
  • Solo il candidato vincente viene aggiornato con clonazione comportamentale e guida del critico
  • Il metodo evita il compromesso tra miglioramento del Q e vicinanza agli endpoint dell'insegnante
  • Gli attori offline a un passo evitano la retropropagazione attraverso lunghi campionatori iterativi
  • L'articolo è disponibile su arXiv con ID 2604.22229
  • Il tipo di annuncio è cross

Entità

Istituzioni

  • arXiv

Fonti