GRPO Consapevole della Covarianza Migliora il Ragionamento degli LLM Domando i Token Estremi
Un nuovo metodo senza iperparametri, GRPO Consapevole della Covarianza con Rivalutazione dei Vantaggi tramite Kernel Gaussiano, affronta il compromesso esplorazione-sfruttamento nell'Ottimizzazione delle Politiche Relative di Gruppo (GRPO) per grandi modelli linguistici. L'approccio riduce dinamicamente il peso degli aggiornamenti a livello di token estremi utilizzando un kernel gaussiano, motivato dall'intuizione teorica che le variazioni di entropia sono governate dalla covarianza tra probabilità dei token e vantaggi. Valutazioni empiriche mostrano prestazioni migliorate su benchmark di ragionamento rispetto alla GRPO standard, stabilizzando l'entropia durante l'addestramento. Il metodo è presentato in un articolo su arXiv (2605.11538) sotto Computer Science > Computation and Language.
Fatti principali
- Il metodo si chiama GRPO Consapevole della Covarianza con Rivalutazione dei Vantaggi tramite Kernel Gaussiano
- È privo di iperparametri
- Riduce il peso degli aggiornamenti a livello di token estremi tramite kernel gaussiano
- Motivato dalla covarianza tra probabilità dei token e vantaggi
- Migliora i benchmark di ragionamento rispetto alla GRPO standard
- Stabilizza l'entropia durante l'addestramento
- Pubblicato su arXiv con ID 2605.11538
- Classificato sotto Computer Science > Computation and Language
Entità
Istituzioni
- arXiv