L'aggregazione bilanciata corregge il bias nell'apprendimento per rinforzo GRPO

other · 2026-05-07

Un nuovo studio da arXiv identifica e risolve il bias di aggregazione in Group Relative Policy Optimization (GRPO), un metodo di apprendimento per rinforzo ampiamente utilizzato per i modelli linguistici di grandi dimensioni. I ricercatori mostrano che l'aggregazione standard delle sequenze e l'aggregazione alternativa dei token introducono bias distinti: l'aggregazione dei token crea un accoppiamento segno-lunghezza, mentre l'aggregazione delle sequenze penalizza implicitamente le risposte più lunghe. Propongono l'Aggregazione Bilanciata (BA), un sostituto plug-in che calcola le medie a livello di token separatamente all'interno dei sottoinsiemi positivi e negativi e le combina con una ponderazione basata sul conteggio delle sequenze. Il metodo mira a migliorare i compiti di ragionamento e generazione di codice.

Fatti principali

Articolo arXiv 2605.04077v1
RLVR è centrale per il ragionamento e la generazione di codice nei LLM
L'addestramento di tipo GRPO è ampiamente adottato
L'aggregazione delle sequenze è standard in GRPO
L'aggregazione dei token è stata proposta come alternativa migliore
L'aggregazione dei token introduce un accoppiamento segno-lunghezza
L'aggregazione delle sequenze penalizza implicitamente le risposte più lunghe
L'Aggregazione Bilanciata (BA) è proposta come sostituto plug-in

L'aggregazione bilanciata corregge il bias nell'apprendimento per rinforzo GRPO

Fatti principali

Entità

Istituzioni

Fonti