L'aggregazione bilanciata corregge il bias nell'apprendimento per rinforzo GRPO
Un nuovo studio da arXiv identifica e risolve il bias di aggregazione in Group Relative Policy Optimization (GRPO), un metodo di apprendimento per rinforzo ampiamente utilizzato per i modelli linguistici di grandi dimensioni. I ricercatori mostrano che l'aggregazione standard delle sequenze e l'aggregazione alternativa dei token introducono bias distinti: l'aggregazione dei token crea un accoppiamento segno-lunghezza, mentre l'aggregazione delle sequenze penalizza implicitamente le risposte più lunghe. Propongono l'Aggregazione Bilanciata (BA), un sostituto plug-in che calcola le medie a livello di token separatamente all'interno dei sottoinsiemi positivi e negativi e le combina con una ponderazione basata sul conteggio delle sequenze. Il metodo mira a migliorare i compiti di ragionamento e generazione di codice.
Fatti principali
- Articolo arXiv 2605.04077v1
- RLVR è centrale per il ragionamento e la generazione di codice nei LLM
- L'addestramento di tipo GRPO è ampiamente adottato
- L'aggregazione delle sequenze è standard in GRPO
- L'aggregazione dei token è stata proposta come alternativa migliore
- L'aggregazione dei token introduce un accoppiamento segno-lunghezza
- L'aggregazione delle sequenze penalizza implicitamente le risposte più lunghe
- L'Aggregazione Bilanciata (BA) è proposta come sostituto plug-in
Entità
Istituzioni
- arXiv