ProcBench: Nuovo Benchmark Valuta il Processo di Esecuzione degli Agenti di Codifica LLM

ai-technology · 2026-05-22

ProcBench è un benchmark innovativo progettato per valutare gli agenti di codifica LLM, enfatizzando la qualità del processo di esecuzione anziché solo i risultati finali. Classifica gli errori di esecuzione ricorrenti in un'ontologia che include 11 tipi di difetti in quattro categorie distinte e analizza le traiettorie degli agenti utilizzando prove di processo standardizzate. Questo benchmark converte i log grezzi in un formato di traiettoria coeso per confrontare diversi agenti. Inoltre, introduce una nuova metrica chiamata preservazione del controllo, che misura la misura in cui l'esecuzione è interpretabile, interrompibile, correggibile, reversibile e in grado di restituire l'autorità. Questa ricerca è dettagliata nell'articolo arXiv 2605.20251.

Fatti principali

1. ProcBench valuta i difetti del processo di esecuzione negli agenti di codifica LLM
2. Copre 11 tipi di difetti in 4 categorie
3. Standardizza i log grezzi in una rappresentazione di traiettoria unificata
4. Introduce la preservazione del controllo come metrica di qualità
5. Pubblicato su arXiv con ID 2605.20251
6. Si concentra sulle prove di processo piuttosto che sui risultati finali
7. Supporta il confronto tra agenti eterogenei
8. Riporta scorecard calibrati sui risultati a livello di processo

ProcBench: Nuovo Benchmark Valuta il Processo di Esecuzione degli Agenti di Codifica LLM

Fatti principali

Entità

Istituzioni

Fonti