ARTFEED — Contemporary Art Intelligence

ReCode: Migliorare la Generazione di Codice tramite Ricompense per il Processo di Ragionamento

ai-technology · 2026-05-07

I ricercatori propongono ReCode, un framework di apprendimento per rinforzo per la generazione di codice che ottimizza la qualità del ragionamento. Affronta due sfide: la scarsità di dati di preferenza granulari per addestrare modelli di ricompensa e il rischio di reward hacking. ReCode include Contrastive Reasoning-Process Reward Learning (CRPL) per addestrare un modello di ricompensa utilizzando varianti di ragionamento sintetizzate, e Consistency-Gated GRPO (CG-GRPO) per integrare le ricompense del processo di ragionamento con i risultati di esecuzione. Il lavoro è dettagliato nell'articolo arXiv 2508.05170.

Fatti principali

  • ReCode sta per Reasoning-Reinforced Code Generation.
  • Utilizza Contrastive Reasoning-Process Reward Learning (CRPL).
  • CRPL addestra un modello di ricompensa con varianti di ragionamento sintetizzate ottimizzate e degradate.
  • Consistency-Gated GRPO (CG-GRPO) filtra le ricompense neurali del processo di ragionamento con i risultati di esecuzione.
  • Il framework mira a migliorare la generazione di codice ottimizzando la qualità del ragionamento.
  • Affronta la scarsità di dati di preferenza granulari per l'addestramento del modello di ricompensa.
  • Mitiga il reward hacking integrando i risultati di esecuzione.
  • L'articolo è disponibile su arXiv con ID 2508.05170.

Entità

Istituzioni

  • arXiv

Fonti