ARTFEED — Contemporary Art Intelligence

Modelli Linguistici Più Piccoli Aumentano la Diversità delle Politiche nell'Addestramento GRPO

ai-technology · 2026-06-01

Un recente articolo su arXiv (2605.30789) indica che modelli linguistici più piccoli della stessa famiglia mostrano una maggiore diversità a livello di politica rispetto alle loro controparti più grandi durante l'ottimizzazione delle politiche relative di gruppo (GRPO). Questa maggiore diversità è temporalmente correlata, mantiene la coerenza logica e offre segnali di esplorazione organizzati per la stima del gradiente, in contrasto con la casualità a livello di token che può aggiungere rumore. I ricercatori introducono S2L-PO (Small-to-Large Policy Optimization), un framework che sfrutta modelli fissi più piccoli come esploratori efficaci per migliorare l'addestramento di modelli più grandi, utilizzando un approccio di ricottura graduale per bilanciare esplorazione e sfruttamento.

Fatti principali

  • I modelli più piccoli mostrano una maggiore diversità a livello di politica in GRPO
  • La diversità è temporalmente correlata e preserva la coerenza logica
  • La casualità a livello di token può introdurre rumore passo-passo
  • Il framework S2L-PO utilizza modelli piccoli come esploratori per modelli più grandi
  • Una strategia di ricottura progressiva bilancia esplorazione e sfruttamento
  • Articolo pubblicato su arXiv con ID 2605.30789
  • Tipo di annuncio: cross

Entità

Istituzioni

  • arXiv

Fonti