Modelli Linguistici Più Piccoli Aumentano la Diversità delle Politiche nell'Addestramento GRPO

ai-technology · 2026-06-01

Un recente articolo su arXiv (2605.30789) indica che modelli linguistici più piccoli della stessa famiglia mostrano una maggiore diversità a livello di politica rispetto alle loro controparti più grandi durante l'ottimizzazione delle politiche relative di gruppo (GRPO). Questa maggiore diversità è temporalmente correlata, mantiene la coerenza logica e offre segnali di esplorazione organizzati per la stima del gradiente, in contrasto con la casualità a livello di token che può aggiungere rumore. I ricercatori introducono S2L-PO (Small-to-Large Policy Optimization), un framework che sfrutta modelli fissi più piccoli come esploratori efficaci per migliorare l'addestramento di modelli più grandi, utilizzando un approccio di ricottura graduale per bilanciare esplorazione e sfruttamento.

Fatti principali

I modelli più piccoli mostrano una maggiore diversità a livello di politica in GRPO
La diversità è temporalmente correlata e preserva la coerenza logica
La casualità a livello di token può introdurre rumore passo-passo
Il framework S2L-PO utilizza modelli piccoli come esploratori per modelli più grandi
Una strategia di ricottura progressiva bilancia esplorazione e sfruttamento
Articolo pubblicato su arXiv con ID 2605.30789
Tipo di annuncio: cross

Modelli Linguistici Più Piccoli Aumentano la Diversità delle Politiche nell'Addestramento GRPO

Fatti principali

Entità

Istituzioni

Fonti