ARTFEED — Contemporary Art Intelligence

Proposto il Cumulative Token IS Ratio per l'Ottimizzazione delle Politiche degli LLM

ai-technology · 2026-05-11

Un recente studio su arXiv presenta un nuovo approccio chiamato cumulative token importance sampling (IS) ratio, che affronta il dilemma bias-varianza nella stima off-policy del gradiente di politica per i modelli linguistici di grandi dimensioni (LLM). Le tecniche attuali, tra cui PPO e GRPO, utilizzano rapporti IS a livello di token che possono introdurre bias a causa della trascuratezza delle variazioni nelle distribuzioni degli stati prefisso. Mentre i rapporti a sequenza intera possono migliorare la precisione a livello di traiettoria, spesso portano a una maggiore varianza. Il cumulative token IS ratio introdotto mira a bilanciare questi fattori, migliorando la stabilità numerica e la rilevanza in scenari di apprendimento per rinforzo con ricompense verificabili.

Fatti principali

  • Il documento arXiv:2605.07331 propone il cumulative token IS ratio per l'ottimizzazione delle politiche degli LLM.
  • I metodi esistenti affrontano il dilemma bias-varianza nella stima off-policy del gradiente di politica.
  • PPO e GRPO utilizzano rapporti IS a livello di token che introducono bias.
  • I rapporti a sequenza intera forniscono una correzione esatta ma soffrono di alta varianza.
  • GSPO utilizza la normalizzazione della lunghezza ma si discosta dalla correzione IS esatta.
  • Il cumulative token IS ratio è il prodotto dei rapporti per token fino alla posizione t.
  • Il lavoro si applica all'apprendimento per rinforzo con ricompense verificabili (RLVR).
  • Gli autori includono Schulman et al. (2017), Shao et al. (2024), Zheng et al. (2025).

Entità

Istituzioni

  • arXiv

Fonti