ARTFEED — Contemporary Art Intelligence

GRPO Consapevole della Covarianza Migliora il Ragionamento degli LLM Domando i Token Estremi

other · 2026-05-13

Un nuovo metodo senza iperparametri, GRPO Consapevole della Covarianza con Rivalutazione dei Vantaggi tramite Kernel Gaussiano, affronta il compromesso esplorazione-sfruttamento nell'Ottimizzazione delle Politiche Relative di Gruppo (GRPO) per grandi modelli linguistici. L'approccio riduce dinamicamente il peso degli aggiornamenti a livello di token estremi utilizzando un kernel gaussiano, motivato dall'intuizione teorica che le variazioni di entropia sono governate dalla covarianza tra probabilità dei token e vantaggi. Valutazioni empiriche mostrano prestazioni migliorate su benchmark di ragionamento rispetto alla GRPO standard, stabilizzando l'entropia durante l'addestramento. Il metodo è presentato in un articolo su arXiv (2605.11538) sotto Computer Science > Computation and Language.

Fatti principali

  • Il metodo si chiama GRPO Consapevole della Covarianza con Rivalutazione dei Vantaggi tramite Kernel Gaussiano
  • È privo di iperparametri
  • Riduce il peso degli aggiornamenti a livello di token estremi tramite kernel gaussiano
  • Motivato dalla covarianza tra probabilità dei token e vantaggi
  • Migliora i benchmark di ragionamento rispetto alla GRPO standard
  • Stabilizza l'entropia durante l'addestramento
  • Pubblicato su arXiv con ID 2605.11538
  • Classificato sotto Computer Science > Computation and Language

Entità

Istituzioni

  • arXiv

Fonti