Framework Unificato Pair-GRPO per l'Allineamento Stabile di LLM

other · 2026-05-12

Uno studio pubblicato su arXiv (2605.06375) presenta la famiglia Pair-GRPO, un quadro teorico completo volto a ottimizzare i grandi modelli linguistici (LLM) attraverso l'apprendimento per rinforzo basato sulle preferenze. Questo framework include due versioni: Soft-Pair-GRPO e Hard-Pair-GRPO. Soft-Pair-GRPO apporta modifiche minime all'ottimizzazione relativa di gruppo (GRPO) sostituendo i premi scalari normalizzati per gruppo con premi binari di preferenza a coppie, preservando al contempo gli elementi di surrogato limitato e regolarizzazione KL di GRPO. Gli autori stabiliscono un teorema di equivalenza del gradiente, dimostrando che, sotto l'espansione di Taylor del primo ordine, il gradiente di Soft-Pair-GRPO è un multiplo scalare positivo del gradiente del GRPO standard. Questo progresso affronta le sfide in RLHF, inclusi aggiornamenti instabili delle politiche e alta varianza del gradiente.

Fatti principali

La famiglia Pair-GRPO include Soft-Pair-GRPO e Hard-Pair-GRPO.
Soft-Pair-GRPO sostituisce i premi scalari normalizzati per gruppo con premi binari di preferenza a coppie.
Mantiene la struttura di surrogato limitato e regolarizzazione KL di GRPO.
Viene dimostrato un teorema di equivalenza del gradiente per Soft-Pair-GRPO.
Il framework affronta aggiornamenti instabili delle politiche in RLHF.
Mira a direzioni ambigue del gradiente e alta varianza del gradiente.
L'articolo è pubblicato su arXiv con ID 2605.06375.
L'approccio è un quadro teorico unificato per l'ottimizzazione RL basata sulle preferenze.

Framework Unificato Pair-GRPO per l'Allineamento Stabile di LLM

Fatti principali

Entità

Istituzioni

Fonti