RepoMirage testa il ragionamento sul contesto del repository degli agenti di codice con perturbazioni

other · 2026-05-27

I ricercatori hanno presentato RepoMirage, un framework di valutazione in due fasi basato su SWE-Bench Verified, volto a valutare se gli agenti di codice comprendano realmente il contesto del repository in attività end-to-end come la risoluzione di problemi. Questo framework utilizza perturbazioni come strumenti diagnostici per aumentare la necessità di ragionamento contestuale modificando la presentazione del repository. Nella sua fase iniziale, RepoMirage-Perturb implementa tre forme di perturbazioni a livello di repository che preservano la semantica, portando a un notevole calo delle prestazioni quando è essenziale un accesso più ampio al contesto per soluzioni accurate. La fase successiva, RepoMirage-Extend, trasforma questi colli di bottiglia strutturali in compiti espliciti che vanno oltre la semplice risoluzione dei problemi, con un conseguente calo ancora maggiore delle prestazioni medie. I risultati suggeriscono che il successo nei benchmark potrebbe non indicare accuratamente un vero ragionamento sulle relazioni tra più file.

Fatti principali

RepoMirage è basato su SWE-Bench Verified.
La suite ha due fasi: RepoMirage-Perturb e RepoMirage-Extend.
Vengono applicati tre tipi di perturbazioni che preservano la semantica.
Le prestazioni calano quando è necessario un contesto più ampio.
I colli di bottiglia strutturali vengono trasformati in compiti espliciti.
Lo studio mette in dubbio che il successo nei benchmark rifletta un vero ragionamento.
Gli agenti di codice attualmente ottengono buoni risultati nei benchmark a livello di repository.
Le perturbazioni sono utilizzate come strumenti diagnostici.

Entità

—

Fonti

arXiv cs.AI — 2026-05-27