ARTFEED — Contemporary Art Intelligence

Flussi di Bellman Accoppiati per Percorsi nel RL Distribuzionale

other · 2026-05-12

Un nuovo approccio noto come Flussi di Bellman Accoppiati per Percorsi (PCBF) è stato introdotto dai ricercatori, con l'obiettivo di risolvere i problemi di disallineamento dei confini e l'elevata varianza associata al bootstrap nei metodi basati su flussi attuali. PCBF opera con percorsi accoppiati di Bellman coerenti con la sorgente, partendo da una base prioritaria a t=0, raggiungendo il target di Bellman a t=1 e preservando una connessione affine lungo il percorso con il flusso successore negli istanti intermedi. Questo approccio collega i flussi di ritorno corrente e successore attraverso un rumore di base comune e utilizza un target di controllo variabile parametrizzato da λ. In particolare, elimina la necessità che le marginali temporali soddisfino un punto fisso di Bellman distribuzionale per tutti i t. La ricerca è disponibile su arXiv con l'identificatore 2605.08253.

Fatti principali

  • PCBF è un metodo DRL a tempo continuo
  • Affronta il disallineamento dei confini e il bootstrap ad alta varianza
  • Utilizza percorsi accoppiati di Bellman coerenti con la sorgente
  • Il percorso corrente parte da una base prioritaria a t=0
  • Raggiunge il target di Bellman a t=1
  • Mantiene una relazione affine con il flusso successore negli istanti intermedi
  • Accoppia i flussi attraverso un rumore di base condiviso
  • Utilizza un target di controllo variabile parametrizzato da λ

Entità

Istituzioni

  • arXiv

Fonti