ARTFEED — Contemporary Art Intelligence

SWE-Chain: Benchmark per Agenti di Codifica su Aggiornamenti di Pacchetti

other · 2026-05-16

SWE-Chain rappresenta un nuovo benchmark volto a valutare gli agenti di codifica basati su modelli linguistici di grandi dimensioni attraverso aggiornamenti di pacchetti a livello di release concatenati. A differenza dei benchmark attuali che si concentrano sulla risoluzione di problemi isolati, SWE-Chain valuta la manutenzione continua attraverso varie transizioni di versione, dove ogni aggiornamento si basa sul codice precedente dell'agente. È stata utilizzata una pipeline di sintesi divide-et-impera per sviluppare questo benchmark, allineando le note di rilascio con i diff di codice per ogni cambio di versione, garantendo così che le specifiche di aggiornamento siano basate su modifiche effettive del codice, pertinenti per gli agenti e pratiche da eseguire. Include 12 catene di aggiornamento da 9 pacchetti Python autentici, con 155 transizioni di versione e 1.660 requisiti di aggiornamento fondati, colmando il vuoto nella valutazione degli agenti su compiti realistici di evoluzione del software che coinvolgono modifiche raggruppate.

Fatti principali

  • SWE-Chain è un benchmark per valutare agenti di codifica su aggiornamenti di pacchetti a livello di release concatenati.
  • Cattura la manutenzione continua attraverso molteplici transizioni di versione.
  • Il benchmark utilizza una pipeline di sintesi divide-et-impera per allineare le note di rilascio con i diff di codice.
  • SWE-Chain contiene 12 catene di aggiornamento su 9 pacchetti Python reali.
  • Include 155 transizioni di versione e 1.660 requisiti di aggiornamento fondati.
  • Il benchmark si concentra sull'evoluzione realistica del software oltre la risoluzione di problemi isolati.
  • Ogni transizione di aggiornamento si basa sul codice precedente dell'agente.
  • Le specifiche di aggiornamento sono fondate su modifiche effettive del codice.

Entità

Istituzioni

  • arXiv

Fonti