NFDRL: Apprendimento per Rinforzo Distribuzionale Efficiente nei Parametri con Flussi Normalizzanti

other · 2026-05-07

Un nuovo approccio all'apprendimento per rinforzo distribuzionale (DistRL) chiamato NFDRL utilizza flussi normalizzanti continui per modellare le distribuzioni dei rendimenti, offrendo un'impronta parametrica compatta che non scala con la risoluzione. A differenza dei metodi categorici come C51, che richiedono parametri che scalano linearmente con la risoluzione, o dei metodi quantili che utilizzano densità costanti a tratti, NFDRL fornisce un supporto adattivo dinamico. L'addestramento impiega una distanza geometrica ispirata a Cramér definita sulle masse di probabilità. Il metodo è dettagliato in arXiv:2505.04310.

Fatti principali

1. NFDRL modella le distribuzioni dei rendimenti utilizzando flussi normalizzanti continui
2. Il numero di parametri non cresce con la risoluzione effettiva
3. Distanza geometrica ispirata a Cramér utilizzata per l'addestramento
4. Supera i baselines categorici e quantili in efficienza parametrica
5. Supporto adattivo dinamico per i rendimenti
6. arXiv:2505.04310
7. Tipo di annuncio: sostituisci
8. Il RL distribuzionale migliora rispetto ai metodi basati sull'aspettativa

NFDRL: Apprendimento per Rinforzo Distribuzionale Efficiente nei Parametri con Flussi Normalizzanti

Fatti principali

Entità

Istituzioni

Fonti