DROL: Routing Dinamico per RL Offline a un Passo

other · 2026-04-27

Un nuovo approccio chiamato DROL è stato introdotto dai ricercatori: si tratta di un attore a un passo condizionato da variabili latenti, progettato per l'apprendimento per rinforzo offline utilizzando un routing dinamico top-1. L'attore seleziona K azioni candidate da un prior latente vincolato per ogni stato, collegando ogni azione nel dataset al suo candidato più vicino. Aggiorna poi solo il vincitore selezionato tramite clonazione comportamentale e guida del critico. Questo metodo evita il compromesso presente nei processi di estrazione a un passo, che richiedono un singolo output per migliorare i valori Q pur rimanendo vicini a un endpoint fornito dall'insegnante. DROL mira a migliorare l'apprendimento per rinforzo offline senza la necessità di campionamento iterativo.

Fatti principali

DROL sta per attore a un passo condizionato da variabili latenti con routing dinamico top-1
L'attore campiona K azioni candidate da un prior latente vincolato per ogni stato
Ogni azione del dataset è assegnata al suo candidato più vicino
Solo il candidato vincente viene aggiornato con clonazione comportamentale e guida del critico
Il metodo evita il compromesso tra miglioramento del Q e vicinanza agli endpoint dell'insegnante
Gli attori offline a un passo evitano la retropropagazione attraverso lunghi campionatori iterativi
L'articolo è disponibile su arXiv con ID 2604.22229
Il tipo di annuncio è cross

DROL: Routing Dinamico per RL Offline a un Passo

Fatti principali

Entità

Istituzioni

Fonti