SWE-ContextBench: Benchmarking dell'Apprendimento Contestuale negli Agenti di Codifica

other · 2026-05-07

SWE-ContextBench è stato presentato dai ricercatori come un benchmark volto a valutare la comprensione e il recupero del contesto negli agenti di codifica basati su grandi modelli linguistici. A differenza dei benchmark attuali che valutano i compiti in modo isolato, SWE-ContextBench si concentra sulla capacità degli agenti di applicare conoscenze pregresse a sfide interconnesse. Include 1.100 compiti fondamentali e 376 compiti associati, tutti basati su autentiche relazioni di dipendenza e riferimento trovate in issue e pull request di GitHub. Questi compiti coprono 51 repository distinti e coinvolgono 9 linguaggi di programmazione. L'obiettivo è valutare la precisione e l'efficienza con cui gli agenti affrontano problemi correlati utilizzando un contesto comune.

Fatti principali

SWE-ContextBench valuta la comprensione e il recupero del contesto negli agenti di codifica.
Consiste in 1.100 compiti di base e 376 compiti correlati.
I compiti derivano da reali relazioni di dipendenza e riferimento tra issue e pull request di GitHub.
I compiti coprono 51 repository unici e 9 linguaggi di programmazione.
Il benchmark misura quanto accuratamente ed efficientemente gli agenti risolvono problemi correlati.
I benchmark attuali trattano i compiti come indipendenti e non valutano il riutilizzo dell'esperienza precedente.
Il benchmark mira a misurare i guadagni di efficienza derivanti dal riutilizzo dell'esperienza precedente.
L'articolo è disponibile su arXiv con ID 2602.08316.

SWE-ContextBench: Benchmarking dell'Apprendimento Contestuale negli Agenti di Codifica

Fatti principali

Entità

Istituzioni

Fonti