ReCode: Migliorare la Generazione di Codice tramite Ricompense per il Processo di Ragionamento
I ricercatori propongono ReCode, un framework di apprendimento per rinforzo per la generazione di codice che ottimizza la qualità del ragionamento. Affronta due sfide: la scarsità di dati di preferenza granulari per addestrare modelli di ricompensa e il rischio di reward hacking. ReCode include Contrastive Reasoning-Process Reward Learning (CRPL) per addestrare un modello di ricompensa utilizzando varianti di ragionamento sintetizzate, e Consistency-Gated GRPO (CG-GRPO) per integrare le ricompense del processo di ragionamento con i risultati di esecuzione. Il lavoro è dettagliato nell'articolo arXiv 2508.05170.
Fatti principali
- ReCode sta per Reasoning-Reinforced Code Generation.
- Utilizza Contrastive Reasoning-Process Reward Learning (CRPL).
- CRPL addestra un modello di ricompensa con varianti di ragionamento sintetizzate ottimizzate e degradate.
- Consistency-Gated GRPO (CG-GRPO) filtra le ricompense neurali del processo di ragionamento con i risultati di esecuzione.
- Il framework mira a migliorare la generazione di codice ottimizzando la qualità del ragionamento.
- Affronta la scarsità di dati di preferenza granulari per l'addestramento del modello di ricompensa.
- Mitiga il reward hacking integrando i risultati di esecuzione.
- L'articolo è disponibile su arXiv con ID 2508.05170.
Entità
Istituzioni
- arXiv