AGPO: L'Adaptive Group Policy Optimization migliora il ragionamento degli LLM

ai-technology · 2026-05-22

Una nuova tecnica di apprendimento per rinforzo nota come Adaptive Group Policy Optimization (AGPO) migliora le capacità di ragionamento dei grandi modelli linguistici (LLM) sfruttando statistiche di gruppo per gestire l'entità degli aggiornamenti e l'esplorazione. Questo perfezionamento senza critico di GRPO utilizza uno stato statistico condiviso derivato da sonde per facilitare il clipping adattivo e il campionamento bidirezionale della temperatura adattiva. Nei test su nove benchmark di matematica e STEM in inglese e cinese, Qwen2.5-14B, addestrato con AGPO, ha superato PPO/GRPO entro gli stessi limiti di generazione di token, raggiungendo punteggi del 67,3% su GSM8K e del 40,5% su MATH. Questi miglioramenti sono applicabili anche a Llama-3-8B.

Fatti principali

AGPO è un perfezionamento senza critico di GRPO
Utilizza statistiche di gruppo per controllare l'entità degli aggiornamenti e l'esplorazione
Il clipping adattivo imposta la dimensione della regione di fiducia in base alla dispersione dei reward, all'asimmetria, all'entropia del voto della sonda, all'entropia della politica e alla deriva KL passo-passo
Il campionamento bidirezionale della temperatura adattiva riscalda o raffredda il decoding attorno a una temperatura base
Testato su nove benchmark di matematica/STEM in inglese e cinese
Qwen2.5-14B con AGPO raggiunge il 67,3% su GSM8K e il 40,5% su MATH
Supera PPO/GRPO con lo stesso budget di token generati
I guadagni si trasferiscono a Llama-3-8B

AGPO: L'Adaptive Group Policy Optimization migliora il ragionamento degli LLM

Fatti principali

Entità

Istituzioni

Fonti