SWE-QA: Benchmark per la Comprensione del Codice Multi-Salto

other · 2026-04-30

SWE-QA è stato lanciato da ricercatori come dataset e benchmark volto a valutare la comprensione del codice multi-salto, colmando il divario tra compiti di valutazione semplici e il ragionamento complesso necessario nello sviluppo software reale. Questo dataset presenta 9.072 domande a scelta multipla create sistematicamente da 12 repository Python all'interno di SWE-bench. Si concentra su schemi di ragionamento ricorrenti, incluse domande di Dichiarazione-e-Chiamata che collegano le definizioni di entità alle loro applicazioni, e domande su Entità Interagenti che indagano le interazioni dinamiche tra vari componenti collaboranti. Le domande sono state create utilizzando l'estrazione di entità basata su parsing e l'ausilio di Large Language Models, con distrattori meticolosamente validati. Questo benchmark è inteso a distinguere la comprensione autentica dal mero riconoscimento superficiale di pattern.

Fatti principali

SWE-QA è un dataset e benchmark per la comprensione del codice multi-salto.
Affronta il divario tra compiti di valutazione semplificati e lo sviluppo software reale.
Il dataset contiene 9.072 domande a scelta multipla.
Le domande sono generate da 12 repository Python di SWE-bench.
Valuta schemi di ragionamento come domande di Dichiarazione-e-Chiamata e Entità Interagenti.
La generazione utilizza estrazione di entità basata su parsing e costruzione di domande assistita da LLM.
I distrattori sono accuratamente validati.
Il benchmark distingue la comprensione genuina dal riconoscimento superficiale di pattern.

Entità

—

Fonti

arXiv cs.AI — 2026-04-29