ARTFEED — Contemporary Art Intelligence

NFDRL: Apprendimento per Rinforzo Distribuzionale Efficiente nei Parametri con Flussi Normalizzanti

other · 2026-05-07

Un nuovo approccio all'apprendimento per rinforzo distribuzionale (DistRL) chiamato NFDRL utilizza flussi normalizzanti continui per modellare le distribuzioni dei rendimenti, offrendo un'impronta parametrica compatta che non scala con la risoluzione. A differenza dei metodi categorici come C51, che richiedono parametri che scalano linearmente con la risoluzione, o dei metodi quantili che utilizzano densità costanti a tratti, NFDRL fornisce un supporto adattivo dinamico. L'addestramento impiega una distanza geometrica ispirata a Cramér definita sulle masse di probabilità. Il metodo è dettagliato in arXiv:2505.04310.

Fatti principali

  • 1. NFDRL modella le distribuzioni dei rendimenti utilizzando flussi normalizzanti continui
  • 2. Il numero di parametri non cresce con la risoluzione effettiva
  • 3. Distanza geometrica ispirata a Cramér utilizzata per l'addestramento
  • 4. Supera i baselines categorici e quantili in efficienza parametrica
  • 5. Supporto adattivo dinamico per i rendimenti
  • 6. arXiv:2505.04310
  • 7. Tipo di annuncio: sostituisci
  • 8. Il RL distribuzionale migliora rispetto ai metodi basati sull'aspettativa

Entità

Istituzioni

  • arXiv

Fonti