NFDRL: Apprendimento per Rinforzo Distribuzionale Efficiente nei Parametri con Flussi Normalizzanti
Un nuovo approccio all'apprendimento per rinforzo distribuzionale (DistRL) chiamato NFDRL utilizza flussi normalizzanti continui per modellare le distribuzioni dei rendimenti, offrendo un'impronta parametrica compatta che non scala con la risoluzione. A differenza dei metodi categorici come C51, che richiedono parametri che scalano linearmente con la risoluzione, o dei metodi quantili che utilizzano densità costanti a tratti, NFDRL fornisce un supporto adattivo dinamico. L'addestramento impiega una distanza geometrica ispirata a Cramér definita sulle masse di probabilità. Il metodo è dettagliato in arXiv:2505.04310.
Fatti principali
- 1. NFDRL modella le distribuzioni dei rendimenti utilizzando flussi normalizzanti continui
- 2. Il numero di parametri non cresce con la risoluzione effettiva
- 3. Distanza geometrica ispirata a Cramér utilizzata per l'addestramento
- 4. Supera i baselines categorici e quantili in efficienza parametrica
- 5. Supporto adattivo dinamico per i rendimenti
- 6. arXiv:2505.04310
- 7. Tipo di annuncio: sostituisci
- 8. Il RL distribuzionale migliora rispetto ai metodi basati sull'aspettativa
Entità
Istituzioni
- arXiv