SWE-QA: Benchmark per la Comprensione del Codice Multi-Salto
SWE-QA è stato lanciato da ricercatori come dataset e benchmark volto a valutare la comprensione del codice multi-salto, colmando il divario tra compiti di valutazione semplici e il ragionamento complesso necessario nello sviluppo software reale. Questo dataset presenta 9.072 domande a scelta multipla create sistematicamente da 12 repository Python all'interno di SWE-bench. Si concentra su schemi di ragionamento ricorrenti, incluse domande di Dichiarazione-e-Chiamata che collegano le definizioni di entità alle loro applicazioni, e domande su Entità Interagenti che indagano le interazioni dinamiche tra vari componenti collaboranti. Le domande sono state create utilizzando l'estrazione di entità basata su parsing e l'ausilio di Large Language Models, con distrattori meticolosamente validati. Questo benchmark è inteso a distinguere la comprensione autentica dal mero riconoscimento superficiale di pattern.
Fatti principali
- SWE-QA è un dataset e benchmark per la comprensione del codice multi-salto.
- Affronta il divario tra compiti di valutazione semplificati e lo sviluppo software reale.
- Il dataset contiene 9.072 domande a scelta multipla.
- Le domande sono generate da 12 repository Python di SWE-bench.
- Valuta schemi di ragionamento come domande di Dichiarazione-e-Chiamata e Entità Interagenti.
- La generazione utilizza estrazione di entità basata su parsing e costruzione di domande assistita da LLM.
- I distrattori sono accuratamente validati.
- Il benchmark distingue la comprensione genuina dal riconoscimento superficiale di pattern.
Entità
—