Flussi di Bellman Accoppiati per Percorsi nel RL Distribuzionale
Un nuovo approccio noto come Flussi di Bellman Accoppiati per Percorsi (PCBF) è stato introdotto dai ricercatori, con l'obiettivo di risolvere i problemi di disallineamento dei confini e l'elevata varianza associata al bootstrap nei metodi basati su flussi attuali. PCBF opera con percorsi accoppiati di Bellman coerenti con la sorgente, partendo da una base prioritaria a t=0, raggiungendo il target di Bellman a t=1 e preservando una connessione affine lungo il percorso con il flusso successore negli istanti intermedi. Questo approccio collega i flussi di ritorno corrente e successore attraverso un rumore di base comune e utilizza un target di controllo variabile parametrizzato da λ. In particolare, elimina la necessità che le marginali temporali soddisfino un punto fisso di Bellman distribuzionale per tutti i t. La ricerca è disponibile su arXiv con l'identificatore 2605.08253.
Fatti principali
- PCBF è un metodo DRL a tempo continuo
- Affronta il disallineamento dei confini e il bootstrap ad alta varianza
- Utilizza percorsi accoppiati di Bellman coerenti con la sorgente
- Il percorso corrente parte da una base prioritaria a t=0
- Raggiunge il target di Bellman a t=1
- Mantiene una relazione affine con il flusso successore negli istanti intermedi
- Accoppia i flussi attraverso un rumore di base condiviso
- Utilizza un target di controllo variabile parametrizzato da λ
Entità
Istituzioni
- arXiv