SWE-Chain: Benchmark per Agenti di Codifica su Aggiornamenti di Pacchetti

other · 2026-05-16

SWE-Chain rappresenta un nuovo benchmark volto a valutare gli agenti di codifica basati su modelli linguistici di grandi dimensioni attraverso aggiornamenti di pacchetti a livello di release concatenati. A differenza dei benchmark attuali che si concentrano sulla risoluzione di problemi isolati, SWE-Chain valuta la manutenzione continua attraverso varie transizioni di versione, dove ogni aggiornamento si basa sul codice precedente dell'agente. È stata utilizzata una pipeline di sintesi divide-et-impera per sviluppare questo benchmark, allineando le note di rilascio con i diff di codice per ogni cambio di versione, garantendo così che le specifiche di aggiornamento siano basate su modifiche effettive del codice, pertinenti per gli agenti e pratiche da eseguire. Include 12 catene di aggiornamento da 9 pacchetti Python autentici, con 155 transizioni di versione e 1.660 requisiti di aggiornamento fondati, colmando il vuoto nella valutazione degli agenti su compiti realistici di evoluzione del software che coinvolgono modifiche raggruppate.

Fatti principali

SWE-Chain è un benchmark per valutare agenti di codifica su aggiornamenti di pacchetti a livello di release concatenati.
Cattura la manutenzione continua attraverso molteplici transizioni di versione.
Il benchmark utilizza una pipeline di sintesi divide-et-impera per allineare le note di rilascio con i diff di codice.
SWE-Chain contiene 12 catene di aggiornamento su 9 pacchetti Python reali.
Include 155 transizioni di versione e 1.660 requisiti di aggiornamento fondati.
Il benchmark si concentra sull'evoluzione realistica del software oltre la risoluzione di problemi isolati.
Ogni transizione di aggiornamento si basa sul codice precedente dell'agente.
Le specifiche di aggiornamento sono fondate su modifiche effettive del codice.

SWE-Chain: Benchmark per Agenti di Codifica su Aggiornamenti di Pacchetti

Fatti principali

Entità

Istituzioni

Fonti