Framework Unificato Pair-GRPO per l'Allineamento Stabile di LLM
Uno studio pubblicato su arXiv (2605.06375) presenta la famiglia Pair-GRPO, un quadro teorico completo volto a ottimizzare i grandi modelli linguistici (LLM) attraverso l'apprendimento per rinforzo basato sulle preferenze. Questo framework include due versioni: Soft-Pair-GRPO e Hard-Pair-GRPO. Soft-Pair-GRPO apporta modifiche minime all'ottimizzazione relativa di gruppo (GRPO) sostituendo i premi scalari normalizzati per gruppo con premi binari di preferenza a coppie, preservando al contempo gli elementi di surrogato limitato e regolarizzazione KL di GRPO. Gli autori stabiliscono un teorema di equivalenza del gradiente, dimostrando che, sotto l'espansione di Taylor del primo ordine, il gradiente di Soft-Pair-GRPO è un multiplo scalare positivo del gradiente del GRPO standard. Questo progresso affronta le sfide in RLHF, inclusi aggiornamenti instabili delle politiche e alta varianza del gradiente.
Fatti principali
- La famiglia Pair-GRPO include Soft-Pair-GRPO e Hard-Pair-GRPO.
- Soft-Pair-GRPO sostituisce i premi scalari normalizzati per gruppo con premi binari di preferenza a coppie.
- Mantiene la struttura di surrogato limitato e regolarizzazione KL di GRPO.
- Viene dimostrato un teorema di equivalenza del gradiente per Soft-Pair-GRPO.
- Il framework affronta aggiornamenti instabili delle politiche in RLHF.
- Mira a direzioni ambigue del gradiente e alta varianza del gradiente.
- L'articolo è pubblicato su arXiv con ID 2605.06375.
- L'approccio è un quadro teorico unificato per l'ottimizzazione RL basata sulle preferenze.
Entità
Istituzioni
- arXiv