Ricercatori Sviluppano un Modello di Ricompensa Generativo Basato su Rubriche per il Fine-Tuning di Agenti di Intelligenza Artificiale nel Software Engineering

ai-technology · 2026-04-22

Un nuovo articolo di ricerca introduce un Modello di Ricompensa Generativo (GRM) basato su rubriche, progettato per migliorare l'addestramento di agenti basati su Large Language Model (LLM) per compiti di Software Engineering (SWE). Gli attuali metodi di fine-tuning end-to-end si basano principalmente su ricompense terminali verificabili, come il superamento dei test unitari, che offrono segnali binari sulla correttezza della soluzione finale ma forniscono una guida minima per modellare i comportamenti intermedi durante interazioni multi-step. Questa limitazione restringe i miglioramenti nella qualità complessiva del processo di risoluzione. Il GRM proposto incorpora rubriche progettate da esseri umani che specificano criteri per incoraggiare o scoraggiare particolari pattern comportamentali, fornendo segnali di apprendimento più ricchi. Questo feedback viene sfruttato per la raccolta di dati di addestramento di alta qualità attraverso la filtrazione delle traiettorie. Quando applicato al Reinforced Fine-Tuning (RFT) su compiti SWE, l'approccio supera i metodi che utilizzano solo il campionamento per rifiuto basato sul punteggio terminale, sopprimendo più efficacemente comportamenti indesiderati e migliorando il processo di addestramento. La ricerca affronta una lacuna nell'attuale addestramento degli agenti di IA concentrandosi sulla guida comportamentale intermedia piuttosto che esclusivamente sui risultati finali. L'articolo è disponibile su arXiv con l'identificatore arXiv:2604.16335v1 ed è classificato come annuncio incrociato. Questo lavoro contribuisce a far progredire le capacità dell'IA nel software engineering affinando il modo in cui gli agenti apprendono e interagiscono durante compiti complessi di problem-solving.

Fatti principali

È stato sviluppato un Modello di Ricompensa Generativo (GRM) basato su rubriche per il fine-tuning di agenti LLM in compiti di Software Engineering.
Gli attuali metodi di fine-tuning si basano su ricompense terminali verificabili come il superamento dei test unitari, offrendo una guida limitata per i comportamenti intermedi.
Il GRM utilizza rubriche progettate da esseri umani per incoraggiare o scoraggiare specifici pattern comportamentali.
Il feedback del GRM viene utilizzato per la raccolta di dati di addestramento di alta qualità tramite filtrazione delle traiettorie.
L'approccio supera il campionamento per rifiuto basato solo sul punteggio terminale nel Reinforced Fine-Tuning su compiti SWE.
La ricerca mira a migliorare la qualità complessiva del processo di risoluzione modellando i comportamenti intermedi.
L'articolo è pubblicato su arXiv con l'identificatore arXiv:2604.16335v1.
Il tipo di annuncio è incrociato, indicando che abbraccia più categorie o campi.

Ricercatori Sviluppano un Modello di Ricompensa Generativo Basato su Rubriche per il Fine-Tuning di Agenti di Intelligenza Artificiale nel Software Engineering

Fatti principali

Entità

Istituzioni

Fonti