GRPO Consapevole della Covarianza Migliora il Ragionamento degli LLM Domando i Token Estremi

other · 2026-05-13

Un nuovo metodo senza iperparametri, GRPO Consapevole della Covarianza con Rivalutazione dei Vantaggi tramite Kernel Gaussiano, affronta il compromesso esplorazione-sfruttamento nell'Ottimizzazione delle Politiche Relative di Gruppo (GRPO) per grandi modelli linguistici. L'approccio riduce dinamicamente il peso degli aggiornamenti a livello di token estremi utilizzando un kernel gaussiano, motivato dall'intuizione teorica che le variazioni di entropia sono governate dalla covarianza tra probabilità dei token e vantaggi. Valutazioni empiriche mostrano prestazioni migliorate su benchmark di ragionamento rispetto alla GRPO standard, stabilizzando l'entropia durante l'addestramento. Il metodo è presentato in un articolo su arXiv (2605.11538) sotto Computer Science > Computation and Language.

Fatti principali

Il metodo si chiama GRPO Consapevole della Covarianza con Rivalutazione dei Vantaggi tramite Kernel Gaussiano
È privo di iperparametri
Riduce il peso degli aggiornamenti a livello di token estremi tramite kernel gaussiano
Motivato dalla covarianza tra probabilità dei token e vantaggi
Migliora i benchmark di ragionamento rispetto alla GRPO standard
Stabilizza l'entropia durante l'addestramento
Pubblicato su arXiv con ID 2605.11538
Classificato sotto Computer Science > Computation and Language

GRPO Consapevole della Covarianza Migliora il Ragionamento degli LLM Domando i Token Estremi

Fatti principali

Entità

Istituzioni

Fonti