AGPO: L'Adaptive Group Policy Optimization migliora il ragionamento degli LLM
Una nuova tecnica di apprendimento per rinforzo nota come Adaptive Group Policy Optimization (AGPO) migliora le capacità di ragionamento dei grandi modelli linguistici (LLM) sfruttando statistiche di gruppo per gestire l'entità degli aggiornamenti e l'esplorazione. Questo perfezionamento senza critico di GRPO utilizza uno stato statistico condiviso derivato da sonde per facilitare il clipping adattivo e il campionamento bidirezionale della temperatura adattiva. Nei test su nove benchmark di matematica e STEM in inglese e cinese, Qwen2.5-14B, addestrato con AGPO, ha superato PPO/GRPO entro gli stessi limiti di generazione di token, raggiungendo punteggi del 67,3% su GSM8K e del 40,5% su MATH. Questi miglioramenti sono applicabili anche a Llama-3-8B.
Fatti principali
- AGPO è un perfezionamento senza critico di GRPO
- Utilizza statistiche di gruppo per controllare l'entità degli aggiornamenti e l'esplorazione
- Il clipping adattivo imposta la dimensione della regione di fiducia in base alla dispersione dei reward, all'asimmetria, all'entropia del voto della sonda, all'entropia della politica e alla deriva KL passo-passo
- Il campionamento bidirezionale della temperatura adattiva riscalda o raffredda il decoding attorno a una temperatura base
- Testato su nove benchmark di matematica/STEM in inglese e cinese
- Qwen2.5-14B con AGPO raggiunge il 67,3% su GSM8K e il 40,5% su MATH
- Supera PPO/GRPO con lo stesso budget di token generati
- I guadagni si trasferiscono a Llama-3-8B
Entità
Istituzioni
- arXiv