ARTFEED — Contemporary Art Intelligence

DexBench: Nuovo Benchmark Testa il Doppio Ragionamento degli LLM sull'Esecuzione di Programmi

ai-technology · 2026-04-25

Un articolo di ricerca su arXiv (2604.20917) introduce DexBench, un benchmark progettato per valutare la comprensione dell'esecuzione di programmi da parte dei grandi modelli linguistici attraverso due compiti di ragionamento complementari: prevedere il comportamento osservato per un dato input e dedurre come l'input debba essere modificato per raggiungere un obiettivo comportamentale specifico. Gli autori sostengono che i benchmark esistenti si concentrano strettamente sulla previsione delle proprietà del programma legate a input specifici, offrendo una visione limitata del ragionamento dinamico sul codice e essendo soggetti a contaminazione dei dati. DexBench comprende 445 coppie di istanze ed è stato utilizzato per valutare 13 LLM. I risultati dimostrano che il doppio ragionamento è essenziale per valutare la comprensione causale del flusso di esecuzione.

Fatti principali

  • L'articolo arXiv 2604.20917 introduce DexBench
  • DexBench valuta gli LLM su due compiti di ragionamento: prevedere il comportamento e dedurre le mutazioni dell'input
  • I benchmark esistenti si concentrano sulla previsione delle proprietà del programma per input specifici
  • DexBench ha 445 coppie di istanze
  • 13 LLM sono stati valutati su DexBench
  • L'articolo sostiene la valutazione della dualità intrinseca nella comprensione dell'esecuzione del programma
  • I compiti di doppio ragionamento sondano la comprensione causale del flusso di esecuzione
  • La ricerca evidenzia i limiti dei benchmark attuali riguardo alla contaminazione dei dati

Entità

Istituzioni

  • arXiv

Fonti