GXPO: Lookahead multi-step efficiente per il RL di ragionamento degli LLM

ai-technology · 2026-05-11

Una nuova tecnica chiamata Gradient Extrapolation-Based Policy Optimization (GXPO) migliora l'efficienza dell'apprendimento per rinforzo per i modelli linguistici di grandi dimensioni. L'addestramento GRPO tradizionale aggiorna il modello basandosi esclusivamente sul passo corrente, mentre un lookahead multi-step completo produce aggiornamenti superiori ma richiede molteplici passaggi all'indietro. GXPO simula un lookahead locale esteso con solo tre passaggi all'indietro durante una fase attiva, utilizzando lo stesso batch di rollouts, ricompense, vantaggi e perdita GRPO. Esegue due rapidi passi dell'ottimizzatore, valuta gli spostamenti del gradiente, prevede un punto di lookahead virtuale a K passi, avanza la politica verso quel punto e implementa una correzione. Questo metodo riduce i costi computazionali preservando i vantaggi del lookahead multi-step, rendendolo ideale per compiti di ragionamento con risposte verificabili.

Fatti principali

1. GXPO sta per Gradient Extrapolation-Based Policy Optimization
2. È una regola di aggiornamento della politica plug-compatibile per il RL di ragionamento in stile GRPO
3. GXPO approssima un lookahead locale più lungo utilizzando solo tre passaggi all'indietro
4. Riutilizza lo stesso batch di rollouts, ricompense, vantaggi e perdita GRPO
5. Il metodo esegue due rapidi passi dell'ottimizzatore e misura le variazioni del gradiente
6. Prevede un punto di lookahead virtuale a K passi e sposta la politica parzialmente
7. Il GRPO standard aggiorna utilizzando solo il passo corrente
8. Il lookahead multi-step completo è troppo costoso a causa dei molti passaggi all'indietro

GXPO: Lookahead multi-step efficiente per il RL di ragionamento degli LLM

Fatti principali

Entità

Istituzioni

Fonti