DexBench: Nuovo Benchmark Testa il Doppio Ragionamento degli LLM sull'Esecuzione di Programmi
Un articolo di ricerca su arXiv (2604.20917) introduce DexBench, un benchmark progettato per valutare la comprensione dell'esecuzione di programmi da parte dei grandi modelli linguistici attraverso due compiti di ragionamento complementari: prevedere il comportamento osservato per un dato input e dedurre come l'input debba essere modificato per raggiungere un obiettivo comportamentale specifico. Gli autori sostengono che i benchmark esistenti si concentrano strettamente sulla previsione delle proprietà del programma legate a input specifici, offrendo una visione limitata del ragionamento dinamico sul codice e essendo soggetti a contaminazione dei dati. DexBench comprende 445 coppie di istanze ed è stato utilizzato per valutare 13 LLM. I risultati dimostrano che il doppio ragionamento è essenziale per valutare la comprensione causale del flusso di esecuzione.
Fatti principali
- L'articolo arXiv 2604.20917 introduce DexBench
- DexBench valuta gli LLM su due compiti di ragionamento: prevedere il comportamento e dedurre le mutazioni dell'input
- I benchmark esistenti si concentrano sulla previsione delle proprietà del programma per input specifici
- DexBench ha 445 coppie di istanze
- 13 LLM sono stati valutati su DexBench
- L'articolo sostiene la valutazione della dualità intrinseca nella comprensione dell'esecuzione del programma
- I compiti di doppio ragionamento sondano la comprensione causale del flusso di esecuzione
- La ricerca evidenzia i limiti dei benchmark attuali riguardo alla contaminazione dei dati
Entità
Istituzioni
- arXiv