Ottimizzazione delle Politiche Guidata dalla Distribuzione per il Ragionamento dei LLM
Un nuovo framework chiamato Distribution Guided Policy Optimization (DGPO) è stato introdotto dai ricercatori per migliorare l'assegnazione del credito a grana fine nel ragionamento con modelli linguistici di grandi dimensioni, eliminando la necessità di un critico nell'apprendimento per rinforzo. DGPO supera le sfide affrontate da Group Relative Policy Optimization (GRPO), in particolare nella gestione dell'assegnazione del credito a livello di sequenza durante le generazioni estese di Chain-of-Thought. La tradizionale penalità di divergenza di Kullback-Leibler senza limiti porta a instabilità del gradiente e a un approccio conservativo che limita i percorsi di ragionamento innovativi. Al contrario, DGPO considera la deviazione della distribuzione come un segnale guida anziché una penalità rigorosa. Questa ricerca è stata presentata su arXiv (cs.LG) ed è accessibile all'indirizzo https://arxiv.org/abs/2605.03327.
Fatti principali
- DGPO è un framework di apprendimento per rinforzo senza critico
- Mira all'assegnazione del credito a grana fine per il ragionamento dei LLM
- Affronta i limiti di GRPO nelle generazioni lunghe di Chain-of-Thought
- La penalità standard di divergenza KL senza limiti causa instabilità del gradiente
- DGPO utilizza la deviazione della distribuzione come segnale guida
- Articolo presentato su arXiv sotto cs.LG
- Disponibile all'indirizzo https://arxiv.org/abs/2605.03327
Entità
Istituzioni
- arXiv