Ottimizzazione delle Politiche Guidata dalla Distribuzione per il Ragionamento dei LLM

ai-technology · 2026-05-07

Un nuovo framework chiamato Distribution Guided Policy Optimization (DGPO) è stato introdotto dai ricercatori per migliorare l'assegnazione del credito a grana fine nel ragionamento con modelli linguistici di grandi dimensioni, eliminando la necessità di un critico nell'apprendimento per rinforzo. DGPO supera le sfide affrontate da Group Relative Policy Optimization (GRPO), in particolare nella gestione dell'assegnazione del credito a livello di sequenza durante le generazioni estese di Chain-of-Thought. La tradizionale penalità di divergenza di Kullback-Leibler senza limiti porta a instabilità del gradiente e a un approccio conservativo che limita i percorsi di ragionamento innovativi. Al contrario, DGPO considera la deviazione della distribuzione come un segnale guida anziché una penalità rigorosa. Questa ricerca è stata presentata su arXiv (cs.LG) ed è accessibile all'indirizzo https://arxiv.org/abs/2605.03327.

Fatti principali

DGPO è un framework di apprendimento per rinforzo senza critico
Mira all'assegnazione del credito a grana fine per il ragionamento dei LLM
Affronta i limiti di GRPO nelle generazioni lunghe di Chain-of-Thought
La penalità standard di divergenza KL senza limiti causa instabilità del gradiente
DGPO utilizza la deviazione della distribuzione come segnale guida
Articolo presentato su arXiv sotto cs.LG
Disponibile all'indirizzo https://arxiv.org/abs/2605.03327

Ottimizzazione delle Politiche Guidata dalla Distribuzione per il Ragionamento dei LLM

Fatti principali

Entità

Istituzioni

Fonti