DVPO: Modellazione del Valore Distribuzionale per il Post-Training Robusto di LLM
Un nuovo framework di apprendimento per rinforzo, DVPO (Modellazione del Valore Distribuzionale con Ottimizzazione delle Politiche Consapevole del Rischio), è stato introdotto per migliorare il post-training di LLM sotto supervisione rumorosa o incompleta. L'approccio combina la teoria del rischio condizionale con la modellazione del valore distribuzionale per bilanciare robustezza e generalizzazione. DVPO apprende distribuzioni di valore a livello di token per una supervisione granulare e applica una regolarizzazione asimmetrica del rischio per modellare la distribuzione. Affronta i limiti dei metodi esistenti come l'ottimizzazione del caso peggiore (RFQI, CQL) e gli approcci basati sulla media (PPO, GRPO), che possono essere eccessivamente conservativi o disomogenei tra scenari. L'articolo è disponibile su arXiv con ID 2512.03847.
Fatti principali
- DVPO sta per Modellazione del Valore Distribuzionale con Ottimizzazione delle Politiche Consapevole del Rischio
- Il framework mira al post-training di LLM con supervisione rumorosa o incompleta
- Combina la teoria del rischio condizionale con la modellazione del valore distribuzionale
- Le distribuzioni di valore a livello di token forniscono una supervisione granulare
- Viene applicata una regolarizzazione asimmetrica del rischio per modellare la distribuzione
- Metodi esistenti come RFQI, CQL, PPO e GRPO sono citati come meno efficaci
- L'articolo è su arXiv con ID 2512.03847
- Il tipo di annuncio è replace-cross
Entità
Istituzioni
- arXiv