RepoMirage testa il ragionamento sul contesto del repository degli agenti di codice con perturbazioni
I ricercatori hanno presentato RepoMirage, un framework di valutazione in due fasi basato su SWE-Bench Verified, volto a valutare se gli agenti di codice comprendano realmente il contesto del repository in attività end-to-end come la risoluzione di problemi. Questo framework utilizza perturbazioni come strumenti diagnostici per aumentare la necessità di ragionamento contestuale modificando la presentazione del repository. Nella sua fase iniziale, RepoMirage-Perturb implementa tre forme di perturbazioni a livello di repository che preservano la semantica, portando a un notevole calo delle prestazioni quando è essenziale un accesso più ampio al contesto per soluzioni accurate. La fase successiva, RepoMirage-Extend, trasforma questi colli di bottiglia strutturali in compiti espliciti che vanno oltre la semplice risoluzione dei problemi, con un conseguente calo ancora maggiore delle prestazioni medie. I risultati suggeriscono che il successo nei benchmark potrebbe non indicare accuratamente un vero ragionamento sulle relazioni tra più file.
Fatti principali
- RepoMirage è basato su SWE-Bench Verified.
- La suite ha due fasi: RepoMirage-Perturb e RepoMirage-Extend.
- Vengono applicati tre tipi di perturbazioni che preservano la semantica.
- Le prestazioni calano quando è necessario un contesto più ampio.
- I colli di bottiglia strutturali vengono trasformati in compiti espliciti.
- Lo studio mette in dubbio che il successo nei benchmark rifletta un vero ragionamento.
- Gli agenti di codice attualmente ottengono buoni risultati nei benchmark a livello di repository.
- Le perturbazioni sono utilizzate come strumenti diagnostici.
Entità
—