G2D: Combinare RL Online e Offline per un Ragionamento Efficiente nei Modelli Linguistici

ai-technology · 2026-05-22

Una tecnica innovativa chiamata G2D (GRPO to DPO) riduce significativamente i costi computazionali associati all'Apprendimento per Rinforzo da Ricompense Verificabili (RLVR) nel ragionamento dei modelli linguistici. Mentre GRPO, un esempio emblematico di RLVR, richiede una generazione continua di rollout online—un approccio costoso e difficile da scalare—l'Ottimizzazione Diretta delle Preferenze (DPO) rappresenta un'alternativa offline più stabile. Tuttavia, DPO è spesso in ritardo rispetto a metodi online come GRPO quando si utilizzano rollout di policy cold supervised fine-tuned (SFT). G2D impiega un processo in tre fasi: iniziare con un breve warm-up GRPO, creare un dataset di preferenze statico, seguito da un fine-tuning offline con DPO. I test condotti su Qwen2.5-7B e Llama-3.1-8B indicano che DPO offline con un warm-up moderato può eguagliare o superare le prestazioni di GRPO a un costo computazionale significativamente ridotto. In particolare, per Qwen2.5-7B, G2D con K=150 fornisce risultati competitivi.

Fatti principali

G2D è un processo in tre fasi: warm-up GRPO, costruzione di un dataset di preferenze statico, fine-tuning offline con DPO.
GRPO richiede una generazione continua di rollout online, rendendolo computazionalmente costoso.
DPO è un'alternativa offline stabile ma tipicamente ha prestazioni inferiori rispetto ai metodi RL online come GRPO.
G2D eguaglia o supera GRPO con un costo computazionale inferiore su Qwen2.5-7B e Llama-3.1-8B.
Gli esperimenti sono stati condotti sui modelli Qwen2.5-7B e Llama-3.1-8B.
G2D con K=150 su Qwen2.5-7B raggiunge risultati competitivi.
Il metodo affronta i problemi di scalabilità in RLVR per il ragionamento dei modelli linguistici.
L'articolo è disponibile su arXiv con ID 2605.21266.

G2D: Combinare RL Online e Offline per un Ragionamento Efficiente nei Modelli Linguistici

Fatti principali

Entità

Istituzioni

Fonti