Supervisione Privilegiata dei Processi per Agenti di Ingegneria del Software
Un nuovo articolo su arXiv (2605.21996) propone una supervisione privilegiata dei processi per agenti di ingegneria del software, utilizzando patch di riferimento create dagli sviluppatori per supervisionare i passaggi intermedi. Gli attuali metodi di fine-tuning supervisionato si basano su verificatori terminali binari che non riescono a correggere ragionamenti errati nelle traiettorie di addestramento. L'approccio mira a passaggi di addestramento efficaci ed efficienti, sfruttando patch ground-truth per guidare il ragionamento dell'agente.
Fatti principali
- 1. L'articolo arXiv:2605.21996 propone una supervisione privilegiata dei processi per agenti SWE
- 2. L'attuale SFT utilizza verificatori terminali binari che non supervisionano i difetti intermedi
- 3. Le patch di riferimento rivelano percorsi dei file, comportamenti runtime e convenzioni di codifica
- 4. I pipeline standard scartano le patch di riferimento create dagli sviluppatori
- 5. Il metodo mira a passaggi efficaci (fondati, che riducono il divario epistemico) ed efficienti (non ridondanti)
Entità
—