ARTFEED — Contemporary Art Intelligence

TraceEval: Primo Benchmark Multi-lingua Verificato dall'Esecuzione per il Ragionamento Semantico del Codice

ai-technology · 2026-05-13

L'introduzione di TraceEval segna un importante progresso nella valutazione della capacità dei grandi modelli linguistici (LLM) di estrarre strutture di programma rilevanti per l'esecuzione dal codice sorgente, andando oltre la semplice generazione di codice che soddisfa i criteri di test. I benchmark attuali, come HumanEval, MBPP, LiveCodeBench e SWE-Bench, si concentrano principalmente sugli output che superano i test, fornendo informazioni limitate sulla semantica del programma. TraceEval si distingue come il primo benchmark multi-lingua verificato dall'esecuzione per il ragionamento semantico del codice, mirato specificamente al recupero della struttura di chiamata a runtime di un programma. A differenza dei benchmark precedenti che dipendono da output di strumenti statici o dati annotati manualmente, ogni arco positivo in TraceEval è confermato tramite esecuzione di validazione, eliminando così i problemi legati al disaccordo tra annotatori e al rumore delle etichette. Il benchmark include 10.583 programmi reali.

Fatti principali

  • TraceEval è il primo benchmark multi-lingua verificato dall'esecuzione per il ragionamento semantico del codice.
  • Valuta i LLM nel recupero della struttura di chiamata a runtime dal codice sorgente.
  • I benchmark esistenti come HumanEval, MBPP, LiveCodeBench e SWE-Bench si concentrano sugli output che superano i test.
  • TraceEval elimina il disaccordo tra annotatori e il rumore delle etichette attraverso la validazione meccanica dell'esecuzione.
  • Il benchmark include 10.583 programmi reali.
  • Ogni arco positivo in TraceEval è testimoniato dall'esecuzione di validazione.
  • I precedenti benchmark di call-graph si basano su output di strumenti statici o verità di fondo annotate a mano.
  • TraceEval mira al recupero della struttura di programma rilevante per l'esecuzione.

Entità

Istituzioni

  • arXiv

Fonti