ConSPO: Un framework contrastivo migliora GRPO per il ragionamento LLM

ai-technology · 2026-05-14

Un nuovo articolo su arXiv (2605.12969) riesamina l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) da una prospettiva contrastiva, concentrandosi su GRPO, un algoritmo chiave per migliorare il ragionamento dei LLM. Gli autori mostrano che GRPO è equivalente a una differenza di punteggio positivo-negativo pesata, ottimizzando rapporti di importanza a livello di token con clipping. Identificano due limitazioni: punteggio disallineato alla verosimiglianza e assegnazione del credito insensibile al punteggio. Per affrontarle, propongono ConSPO (Contrastive Sequence-level Policy Optimization), un framework che allinea meglio l'ottimizzazione con le verosimiglianze di generazione e tiene conto dei divari di punteggio relativi tra rollout positivi e negativi.

Fatti principali

L'articolo arXiv 2605.12969 riesamina RLVR da una prospettiva contrastiva
GRPO è riformulato come una differenza di punteggio positivo-negativo pesata
GRPO ottimizza rapporti di importanza a livello di token con clipping
Due limitazioni identificate: punteggio disallineato alla verosimiglianza e assegnazione del credito insensibile al punteggio
ConSPO è proposto per affrontare queste limitazioni
ConSPO sta per Contrastive Sequence-level Policy Optimization
L'articolo è un annuncio di tipo cross su arXiv
Il lavoro mira a migliorare le capacità di ragionamento dei LLM

ConSPO: Un framework contrastivo migliora GRPO per il ragionamento LLM

Fatti principali

Entità

Istituzioni

Fonti