ReCode: Migliorare la Generazione di Codice tramite Ricompense per il Processo di Ragionamento

ai-technology · 2026-05-07

I ricercatori propongono ReCode, un framework di apprendimento per rinforzo per la generazione di codice che ottimizza la qualità del ragionamento. Affronta due sfide: la scarsità di dati di preferenza granulari per addestrare modelli di ricompensa e il rischio di reward hacking. ReCode include Contrastive Reasoning-Process Reward Learning (CRPL) per addestrare un modello di ricompensa utilizzando varianti di ragionamento sintetizzate, e Consistency-Gated GRPO (CG-GRPO) per integrare le ricompense del processo di ragionamento con i risultati di esecuzione. Il lavoro è dettagliato nell'articolo arXiv 2508.05170.

Fatti principali

ReCode sta per Reasoning-Reinforced Code Generation.
Utilizza Contrastive Reasoning-Process Reward Learning (CRPL).
CRPL addestra un modello di ricompensa con varianti di ragionamento sintetizzate ottimizzate e degradate.
Consistency-Gated GRPO (CG-GRPO) filtra le ricompense neurali del processo di ragionamento con i risultati di esecuzione.
Il framework mira a migliorare la generazione di codice ottimizzando la qualità del ragionamento.
Affronta la scarsità di dati di preferenza granulari per l'addestramento del modello di ricompensa.
Mitiga il reward hacking integrando i risultati di esecuzione.
L'articolo è disponibile su arXiv con ID 2508.05170.

ReCode: Migliorare la Generazione di Codice tramite Ricompense per il Processo di Ragionamento

Fatti principali

Entità

Istituzioni

Fonti