ConSPO: Un framework contrastivo migliora GRPO per il ragionamento LLM
Un nuovo articolo su arXiv (2605.12969) riesamina l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) da una prospettiva contrastiva, concentrandosi su GRPO, un algoritmo chiave per migliorare il ragionamento dei LLM. Gli autori mostrano che GRPO è equivalente a una differenza di punteggio positivo-negativo pesata, ottimizzando rapporti di importanza a livello di token con clipping. Identificano due limitazioni: punteggio disallineato alla verosimiglianza e assegnazione del credito insensibile al punteggio. Per affrontarle, propongono ConSPO (Contrastive Sequence-level Policy Optimization), un framework che allinea meglio l'ottimizzazione con le verosimiglianze di generazione e tiene conto dei divari di punteggio relativi tra rollout positivi e negativi.
Fatti principali
- L'articolo arXiv 2605.12969 riesamina RLVR da una prospettiva contrastiva
- GRPO è riformulato come una differenza di punteggio positivo-negativo pesata
- GRPO ottimizza rapporti di importanza a livello di token con clipping
- Due limitazioni identificate: punteggio disallineato alla verosimiglianza e assegnazione del credito insensibile al punteggio
- ConSPO è proposto per affrontare queste limitazioni
- ConSPO sta per Contrastive Sequence-level Policy Optimization
- L'articolo è un annuncio di tipo cross su arXiv
- Il lavoro mira a migliorare le capacità di ragionamento dei LLM
Entità
Istituzioni
- arXiv