ARTFEED — Contemporary Art Intelligence

DVPO: Modellazione del Valore Distribuzionale per il Post-Training Robusto di LLM

ai-technology · 2026-05-07

Un nuovo framework di apprendimento per rinforzo, DVPO (Modellazione del Valore Distribuzionale con Ottimizzazione delle Politiche Consapevole del Rischio), è stato introdotto per migliorare il post-training di LLM sotto supervisione rumorosa o incompleta. L'approccio combina la teoria del rischio condizionale con la modellazione del valore distribuzionale per bilanciare robustezza e generalizzazione. DVPO apprende distribuzioni di valore a livello di token per una supervisione granulare e applica una regolarizzazione asimmetrica del rischio per modellare la distribuzione. Affronta i limiti dei metodi esistenti come l'ottimizzazione del caso peggiore (RFQI, CQL) e gli approcci basati sulla media (PPO, GRPO), che possono essere eccessivamente conservativi o disomogenei tra scenari. L'articolo è disponibile su arXiv con ID 2512.03847.

Fatti principali

  • DVPO sta per Modellazione del Valore Distribuzionale con Ottimizzazione delle Politiche Consapevole del Rischio
  • Il framework mira al post-training di LLM con supervisione rumorosa o incompleta
  • Combina la teoria del rischio condizionale con la modellazione del valore distribuzionale
  • Le distribuzioni di valore a livello di token forniscono una supervisione granulare
  • Viene applicata una regolarizzazione asimmetrica del rischio per modellare la distribuzione
  • Metodi esistenti come RFQI, CQL, PPO e GRPO sono citati come meno efficaci
  • L'articolo è su arXiv con ID 2512.03847
  • Il tipo di annuncio è replace-cross

Entità

Istituzioni

  • arXiv

Fonti