ARTFEED — Contemporary Art Intelligence

SWE-QA: Benchmark per la Comprensione del Codice Multi-Salto

other · 2026-04-30

SWE-QA è stato lanciato da ricercatori come dataset e benchmark volto a valutare la comprensione del codice multi-salto, colmando il divario tra compiti di valutazione semplici e il ragionamento complesso necessario nello sviluppo software reale. Questo dataset presenta 9.072 domande a scelta multipla create sistematicamente da 12 repository Python all'interno di SWE-bench. Si concentra su schemi di ragionamento ricorrenti, incluse domande di Dichiarazione-e-Chiamata che collegano le definizioni di entità alle loro applicazioni, e domande su Entità Interagenti che indagano le interazioni dinamiche tra vari componenti collaboranti. Le domande sono state create utilizzando l'estrazione di entità basata su parsing e l'ausilio di Large Language Models, con distrattori meticolosamente validati. Questo benchmark è inteso a distinguere la comprensione autentica dal mero riconoscimento superficiale di pattern.

Fatti principali

  • SWE-QA è un dataset e benchmark per la comprensione del codice multi-salto.
  • Affronta il divario tra compiti di valutazione semplificati e lo sviluppo software reale.
  • Il dataset contiene 9.072 domande a scelta multipla.
  • Le domande sono generate da 12 repository Python di SWE-bench.
  • Valuta schemi di ragionamento come domande di Dichiarazione-e-Chiamata e Entità Interagenti.
  • La generazione utilizza estrazione di entità basata su parsing e costruzione di domande assistita da LLM.
  • I distrattori sono accuratamente validati.
  • Il benchmark distingue la comprensione genuina dal riconoscimento superficiale di pattern.

Entità

Fonti