ARTFEED — Contemporary Art Intelligence

Rimodellamento del Segnale per GRPO nel Riparazione Agentica di Codice con Feedback Debole

other · 2026-05-11

Un nuovo preprint arXiv (2605.07276) propone il rimodellamento del segnale per l'ottimizzazione delle politiche relative al gruppo (GRPO) nell'apprendimento per rinforzo di agenti di codice, specificamente per compiti agentici di compilazione e correzione. Gli autori sostengono che il confronto all'interno del gruppo di GRPO è significativo solo dopo aver rimodellato tre tipi di segnali: ricompense di risultato per la classificazione semantica, segnali di processo per l'assegnazione del credito intra-traiettoria e rollout per la comparabilità dell'esecuzione. Introducono una costruzione minima con ricompense stratificate di compilazione e semantiche, punteggi di processo a livello di passo al di fuori della normalizzazione delle ricompense di gruppo e governance dei rollout basata sulle cause di fallimento, lasciando invariato il vantaggio normalizzato del gruppo di GRPO. Il lavoro affronta il feedback debole in cui i segnali al momento del rollout sono affidabili ma catturano solo condizioni necessarie o superficiali.

Fatti principali

  • arXiv:2605.07276v1
  • Tipo di annuncio: nuovo
  • L'abstract discute l'apprendimento per rinforzo di agenti di codice con feedback debole
  • Ambientazione: compilazione e correzione agentica
  • Rimodellamento del segnale per GRPO standard
  • Tre tipi di segnale: ricompense di risultato, segnali di processo, rollout
  • Ricompense stratificate di compilazione e semantiche
  • Punteggi di processo a livello di passo al di fuori della normalizzazione delle ricompense di gruppo
  • Governance dei rollout basata sulle cause di fallimento
  • Costruzione del vantaggio normalizzato del gruppo di GRPO invariata

Entità

Istituzioni

  • arXiv

Fonti