SWE-Chain: Benchmark per Agenti di Codifica su Aggiornamenti di Pacchetti
SWE-Chain rappresenta un nuovo benchmark volto a valutare gli agenti di codifica basati su modelli linguistici di grandi dimensioni attraverso aggiornamenti di pacchetti a livello di release concatenati. A differenza dei benchmark attuali che si concentrano sulla risoluzione di problemi isolati, SWE-Chain valuta la manutenzione continua attraverso varie transizioni di versione, dove ogni aggiornamento si basa sul codice precedente dell'agente. È stata utilizzata una pipeline di sintesi divide-et-impera per sviluppare questo benchmark, allineando le note di rilascio con i diff di codice per ogni cambio di versione, garantendo così che le specifiche di aggiornamento siano basate su modifiche effettive del codice, pertinenti per gli agenti e pratiche da eseguire. Include 12 catene di aggiornamento da 9 pacchetti Python autentici, con 155 transizioni di versione e 1.660 requisiti di aggiornamento fondati, colmando il vuoto nella valutazione degli agenti su compiti realistici di evoluzione del software che coinvolgono modifiche raggruppate.
Fatti principali
- SWE-Chain è un benchmark per valutare agenti di codifica su aggiornamenti di pacchetti a livello di release concatenati.
- Cattura la manutenzione continua attraverso molteplici transizioni di versione.
- Il benchmark utilizza una pipeline di sintesi divide-et-impera per allineare le note di rilascio con i diff di codice.
- SWE-Chain contiene 12 catene di aggiornamento su 9 pacchetti Python reali.
- Include 155 transizioni di versione e 1.660 requisiti di aggiornamento fondati.
- Il benchmark si concentra sull'evoluzione realistica del software oltre la risoluzione di problemi isolati.
- Ogni transizione di aggiornamento si basa sul codice precedente dell'agente.
- Le specifiche di aggiornamento sono fondate su modifiche effettive del codice.
Entità
Istituzioni
- arXiv