Proposto il Cumulative Token IS Ratio per l'Ottimizzazione delle Politiche degli LLM
Un recente studio su arXiv presenta un nuovo approccio chiamato cumulative token importance sampling (IS) ratio, che affronta il dilemma bias-varianza nella stima off-policy del gradiente di politica per i modelli linguistici di grandi dimensioni (LLM). Le tecniche attuali, tra cui PPO e GRPO, utilizzano rapporti IS a livello di token che possono introdurre bias a causa della trascuratezza delle variazioni nelle distribuzioni degli stati prefisso. Mentre i rapporti a sequenza intera possono migliorare la precisione a livello di traiettoria, spesso portano a una maggiore varianza. Il cumulative token IS ratio introdotto mira a bilanciare questi fattori, migliorando la stabilità numerica e la rilevanza in scenari di apprendimento per rinforzo con ricompense verificabili.
Fatti principali
- Il documento arXiv:2605.07331 propone il cumulative token IS ratio per l'ottimizzazione delle politiche degli LLM.
- I metodi esistenti affrontano il dilemma bias-varianza nella stima off-policy del gradiente di politica.
- PPO e GRPO utilizzano rapporti IS a livello di token che introducono bias.
- I rapporti a sequenza intera forniscono una correzione esatta ma soffrono di alta varianza.
- GSPO utilizza la normalizzazione della lunghezza ma si discosta dalla correzione IS esatta.
- Il cumulative token IS ratio è il prodotto dei rapporti per token fino alla posizione t.
- Il lavoro si applica all'apprendimento per rinforzo con ricompense verificabili (RLVR).
- Gli autori includono Schulman et al. (2017), Shao et al. (2024), Zheng et al. (2025).
Entità
Istituzioni
- arXiv