GCPO: L'Ottimizzazione Cooperativa delle Politiche di Gruppo Potenzia la Diversità nel Ragionamento dei LLM

ai-technology · 2026-05-13

Un nuovo metodo di apprendimento per rinforzo, Group Cooperative Policy Optimization (GCPO), affronta il collasso dell'esplorazione nel ragionamento dei LLM sostituendo la competizione "winner-takes-all" con un'assegnazione di credito a livello di squadra. A differenza di GRPO, che soffre di convergenza prematura su schemi ristretti, GCPO premia i rollout in base al loro contributo alla copertura di soluzioni valide del team. Questo sposta il paradigma di addestramento dalla competizione tra rollout alla cooperazione di squadra, promuovendo strategie di ragionamento diversificate. L'approccio è dettagliato nell'articolo arXiv 2605.11461.

Fatti principali

GCPO sta per Group Cooperative Policy Optimization
GCPO affronta il collasso dell'esplorazione nel ragionamento dei LLM
GRPO soffre di convergenza prematura su schemi ristretti
GCPO sostituisce la competizione "winner-takes-all" con la cooperazione di squadra
GCPO utilizza l'assegnazione di credito a livello di squadra
I rollout sono premiati in base al contributo alla copertura di soluzioni valide
L'articolo è su arXiv con ID 2605.11461
Il metodo passa dalla competizione tra rollout alla cooperazione di squadra

Entità

—

Fonti

arXiv cs.AI — 2026-05-13