DVPO: Modellazione del Valore Distribuzionale per il Post-Training Robusto di LLM

ai-technology · 2026-05-07

Un nuovo framework di apprendimento per rinforzo, DVPO (Modellazione del Valore Distribuzionale con Ottimizzazione delle Politiche Consapevole del Rischio), è stato introdotto per migliorare il post-training di LLM sotto supervisione rumorosa o incompleta. L'approccio combina la teoria del rischio condizionale con la modellazione del valore distribuzionale per bilanciare robustezza e generalizzazione. DVPO apprende distribuzioni di valore a livello di token per una supervisione granulare e applica una regolarizzazione asimmetrica del rischio per modellare la distribuzione. Affronta i limiti dei metodi esistenti come l'ottimizzazione del caso peggiore (RFQI, CQL) e gli approcci basati sulla media (PPO, GRPO), che possono essere eccessivamente conservativi o disomogenei tra scenari. L'articolo è disponibile su arXiv con ID 2512.03847.

Fatti principali

DVPO sta per Modellazione del Valore Distribuzionale con Ottimizzazione delle Politiche Consapevole del Rischio
Il framework mira al post-training di LLM con supervisione rumorosa o incompleta
Combina la teoria del rischio condizionale con la modellazione del valore distribuzionale
Le distribuzioni di valore a livello di token forniscono una supervisione granulare
Viene applicata una regolarizzazione asimmetrica del rischio per modellare la distribuzione
Metodi esistenti come RFQI, CQL, PPO e GRPO sono citati come meno efficaci
L'articolo è su arXiv con ID 2512.03847
Il tipo di annuncio è replace-cross

DVPO: Modellazione del Valore Distribuzionale per il Post-Training Robusto di LLM

Fatti principali

Entità

Istituzioni

Fonti