Rimodellamento del Segnale per GRPO nel Riparazione Agentica di Codice con Feedback Debole
Un nuovo preprint arXiv (2605.07276) propone il rimodellamento del segnale per l'ottimizzazione delle politiche relative al gruppo (GRPO) nell'apprendimento per rinforzo di agenti di codice, specificamente per compiti agentici di compilazione e correzione. Gli autori sostengono che il confronto all'interno del gruppo di GRPO è significativo solo dopo aver rimodellato tre tipi di segnali: ricompense di risultato per la classificazione semantica, segnali di processo per l'assegnazione del credito intra-traiettoria e rollout per la comparabilità dell'esecuzione. Introducono una costruzione minima con ricompense stratificate di compilazione e semantiche, punteggi di processo a livello di passo al di fuori della normalizzazione delle ricompense di gruppo e governance dei rollout basata sulle cause di fallimento, lasciando invariato il vantaggio normalizzato del gruppo di GRPO. Il lavoro affronta il feedback debole in cui i segnali al momento del rollout sono affidabili ma catturano solo condizioni necessarie o superficiali.
Fatti principali
- arXiv:2605.07276v1
- Tipo di annuncio: nuovo
- L'abstract discute l'apprendimento per rinforzo di agenti di codice con feedback debole
- Ambientazione: compilazione e correzione agentica
- Rimodellamento del segnale per GRPO standard
- Tre tipi di segnale: ricompense di risultato, segnali di processo, rollout
- Ricompense stratificate di compilazione e semantiche
- Punteggi di processo a livello di passo al di fuori della normalizzazione delle ricompense di gruppo
- Governance dei rollout basata sulle cause di fallimento
- Costruzione del vantaggio normalizzato del gruppo di GRPO invariata
Entità
Istituzioni
- arXiv