Modelli Linguistici Più Piccoli Aumentano la Diversità delle Politiche nell'Addestramento GRPO
Un recente articolo su arXiv (2605.30789) indica che modelli linguistici più piccoli della stessa famiglia mostrano una maggiore diversità a livello di politica rispetto alle loro controparti più grandi durante l'ottimizzazione delle politiche relative di gruppo (GRPO). Questa maggiore diversità è temporalmente correlata, mantiene la coerenza logica e offre segnali di esplorazione organizzati per la stima del gradiente, in contrasto con la casualità a livello di token che può aggiungere rumore. I ricercatori introducono S2L-PO (Small-to-Large Policy Optimization), un framework che sfrutta modelli fissi più piccoli come esploratori efficaci per migliorare l'addestramento di modelli più grandi, utilizzando un approccio di ricottura graduale per bilanciare esplorazione e sfruttamento.
Fatti principali
- I modelli più piccoli mostrano una maggiore diversità a livello di politica in GRPO
- La diversità è temporalmente correlata e preserva la coerenza logica
- La casualità a livello di token può introdurre rumore passo-passo
- Il framework S2L-PO utilizza modelli piccoli come esploratori per modelli più grandi
- Una strategia di ricottura progressiva bilancia esplorazione e sfruttamento
- Articolo pubblicato su arXiv con ID 2605.30789
- Tipo di annuncio: cross
Entità
Istituzioni
- arXiv