ARTFEED — Contemporary Art Intelligence

GCPO: L'Ottimizzazione Cooperativa delle Politiche di Gruppo Potenzia la Diversità nel Ragionamento dei LLM

ai-technology · 2026-05-13

Un nuovo metodo di apprendimento per rinforzo, Group Cooperative Policy Optimization (GCPO), affronta il collasso dell'esplorazione nel ragionamento dei LLM sostituendo la competizione "winner-takes-all" con un'assegnazione di credito a livello di squadra. A differenza di GRPO, che soffre di convergenza prematura su schemi ristretti, GCPO premia i rollout in base al loro contributo alla copertura di soluzioni valide del team. Questo sposta il paradigma di addestramento dalla competizione tra rollout alla cooperazione di squadra, promuovendo strategie di ragionamento diversificate. L'approccio è dettagliato nell'articolo arXiv 2605.11461.

Fatti principali

  • GCPO sta per Group Cooperative Policy Optimization
  • GCPO affronta il collasso dell'esplorazione nel ragionamento dei LLM
  • GRPO soffre di convergenza prematura su schemi ristretti
  • GCPO sostituisce la competizione "winner-takes-all" con la cooperazione di squadra
  • GCPO utilizza l'assegnazione di credito a livello di squadra
  • I rollout sono premiati in base al contributo alla copertura di soluzioni valide
  • L'articolo è su arXiv con ID 2605.11461
  • Il metodo passa dalla competizione tra rollout alla cooperazione di squadra

Entità

Fonti