ARTFEED — Contemporary Art Intelligence

RepoMirage testa il ragionamento sul contesto del repository degli agenti di codice con perturbazioni

other · 2026-05-27

I ricercatori hanno presentato RepoMirage, un framework di valutazione in due fasi basato su SWE-Bench Verified, volto a valutare se gli agenti di codice comprendano realmente il contesto del repository in attività end-to-end come la risoluzione di problemi. Questo framework utilizza perturbazioni come strumenti diagnostici per aumentare la necessità di ragionamento contestuale modificando la presentazione del repository. Nella sua fase iniziale, RepoMirage-Perturb implementa tre forme di perturbazioni a livello di repository che preservano la semantica, portando a un notevole calo delle prestazioni quando è essenziale un accesso più ampio al contesto per soluzioni accurate. La fase successiva, RepoMirage-Extend, trasforma questi colli di bottiglia strutturali in compiti espliciti che vanno oltre la semplice risoluzione dei problemi, con un conseguente calo ancora maggiore delle prestazioni medie. I risultati suggeriscono che il successo nei benchmark potrebbe non indicare accuratamente un vero ragionamento sulle relazioni tra più file.

Fatti principali

  • RepoMirage è basato su SWE-Bench Verified.
  • La suite ha due fasi: RepoMirage-Perturb e RepoMirage-Extend.
  • Vengono applicati tre tipi di perturbazioni che preservano la semantica.
  • Le prestazioni calano quando è necessario un contesto più ampio.
  • I colli di bottiglia strutturali vengono trasformati in compiti espliciti.
  • Lo studio mette in dubbio che il successo nei benchmark rifletta un vero ragionamento.
  • Gli agenti di codice attualmente ottengono buoni risultati nei benchmark a livello di repository.
  • Le perturbazioni sono utilizzate come strumenti diagnostici.

Entità

Fonti