SWE-ContextBench: Benchmarking dell'Apprendimento Contestuale negli Agenti di Codifica
SWE-ContextBench è stato presentato dai ricercatori come un benchmark volto a valutare la comprensione e il recupero del contesto negli agenti di codifica basati su grandi modelli linguistici. A differenza dei benchmark attuali che valutano i compiti in modo isolato, SWE-ContextBench si concentra sulla capacità degli agenti di applicare conoscenze pregresse a sfide interconnesse. Include 1.100 compiti fondamentali e 376 compiti associati, tutti basati su autentiche relazioni di dipendenza e riferimento trovate in issue e pull request di GitHub. Questi compiti coprono 51 repository distinti e coinvolgono 9 linguaggi di programmazione. L'obiettivo è valutare la precisione e l'efficienza con cui gli agenti affrontano problemi correlati utilizzando un contesto comune.
Fatti principali
- SWE-ContextBench valuta la comprensione e il recupero del contesto negli agenti di codifica.
- Consiste in 1.100 compiti di base e 376 compiti correlati.
- I compiti derivano da reali relazioni di dipendenza e riferimento tra issue e pull request di GitHub.
- I compiti coprono 51 repository unici e 9 linguaggi di programmazione.
- Il benchmark misura quanto accuratamente ed efficientemente gli agenti risolvono problemi correlati.
- I benchmark attuali trattano i compiti come indipendenti e non valutano il riutilizzo dell'esperienza precedente.
- Il benchmark mira a misurare i guadagni di efficienza derivanti dal riutilizzo dell'esperienza precedente.
- L'articolo è disponibile su arXiv con ID 2602.08316.
Entità
Istituzioni
- arXiv