PODS: Down-Sampling dei Rollout per un Addestramento RL Efficiente degli LLM

ai-technology · 2026-04-24

PODS (Policy Optimization with Down-Sampling) è stato sviluppato dai ricercatori per affrontare le sfide dello squilibrio computazionale e di memoria nell'apprendimento per rinforzo con ricompense verificabili (RLVR) per modelli linguistici di grandi dimensioni. RLVR incontra un problema chiave: mentre la generazione dei rollout è altamente parallelizzabile e richiede poca memoria, gli aggiornamenti della policy richiedono significative risorse di comunicazione e memoria. Addestrandosi esclusivamente su un sottoinsieme accuratamente selezionato di rollout, PODS separa la generazione dei rollout dagli aggiornamenti della policy, preservando l'efficacia dell'apprendimento e riducendo significativamente i costi di aggiornamento. L'approccio utilizza il down-sampling a massima varianza, un criterio di selezione metodico che migliora la diversità delle ricompense, e presenta un'implementazione efficiente O(n log n). In pratica, Group Relative Policy Optimization (GRPO) che utilizza PODS raggiunge la massima accuratezza di test del GRPO standard almeno 1,7 volte più velocemente in vari compiti.

Fatti principali

PODS affronta l'asimmetria computazionale e di memoria in RLVR per LLM.
La generazione dei rollout è imbarazzantemente parallela e leggera in termini di memoria.
Gli aggiornamenti della policy sono intensivi in termini di comunicazione e memoria.
PODS disaccoppia la generazione dei rollout dagli aggiornamenti della policy.
L'addestramento avviene solo su un sottoinsieme strategicamente selezionato di rollout.
Il down-sampling a massima varianza massimizza la diversità delle ricompense.
L'implementazione ha complessità O(n log n).
GRPO con PODS raggiunge l'accuratezza massima 1,7 volte più velocemente rispetto a GRPO standard.

Entità

—

Fonti

arXiv cs.AI — 2026-04-23