Rimodellamento del Segnale per GRPO nel Riparazione Agentica di Codice con Feedback Debole

other · 2026-05-11

Un nuovo preprint arXiv (2605.07276) propone il rimodellamento del segnale per l'ottimizzazione delle politiche relative al gruppo (GRPO) nell'apprendimento per rinforzo di agenti di codice, specificamente per compiti agentici di compilazione e correzione. Gli autori sostengono che il confronto all'interno del gruppo di GRPO è significativo solo dopo aver rimodellato tre tipi di segnali: ricompense di risultato per la classificazione semantica, segnali di processo per l'assegnazione del credito intra-traiettoria e rollout per la comparabilità dell'esecuzione. Introducono una costruzione minima con ricompense stratificate di compilazione e semantiche, punteggi di processo a livello di passo al di fuori della normalizzazione delle ricompense di gruppo e governance dei rollout basata sulle cause di fallimento, lasciando invariato il vantaggio normalizzato del gruppo di GRPO. Il lavoro affronta il feedback debole in cui i segnali al momento del rollout sono affidabili ma catturano solo condizioni necessarie o superficiali.

Fatti principali

arXiv:2605.07276v1
Tipo di annuncio: nuovo
L'abstract discute l'apprendimento per rinforzo di agenti di codice con feedback debole
Ambientazione: compilazione e correzione agentica
Rimodellamento del segnale per GRPO standard
Tre tipi di segnale: ricompense di risultato, segnali di processo, rollout
Ricompense stratificate di compilazione e semantiche
Punteggi di processo a livello di passo al di fuori della normalizzazione delle ricompense di gruppo
Governance dei rollout basata sulle cause di fallimento
Costruzione del vantaggio normalizzato del gruppo di GRPO invariata

Rimodellamento del Segnale per GRPO nel Riparazione Agentica di Codice con Feedback Debole

Fatti principali

Entità

Istituzioni

Fonti