ProcBench: Nuovo Benchmark Valuta il Processo di Esecuzione degli Agenti di Codifica LLM
ProcBench è un benchmark innovativo progettato per valutare gli agenti di codifica LLM, enfatizzando la qualità del processo di esecuzione anziché solo i risultati finali. Classifica gli errori di esecuzione ricorrenti in un'ontologia che include 11 tipi di difetti in quattro categorie distinte e analizza le traiettorie degli agenti utilizzando prove di processo standardizzate. Questo benchmark converte i log grezzi in un formato di traiettoria coeso per confrontare diversi agenti. Inoltre, introduce una nuova metrica chiamata preservazione del controllo, che misura la misura in cui l'esecuzione è interpretabile, interrompibile, correggibile, reversibile e in grado di restituire l'autorità. Questa ricerca è dettagliata nell'articolo arXiv 2605.20251.
Fatti principali
- 1. ProcBench valuta i difetti del processo di esecuzione negli agenti di codifica LLM
- 2. Copre 11 tipi di difetti in 4 categorie
- 3. Standardizza i log grezzi in una rappresentazione di traiettoria unificata
- 4. Introduce la preservazione del controllo come metrica di qualità
- 5. Pubblicato su arXiv con ID 2605.20251
- 6. Si concentra sulle prove di processo piuttosto che sui risultati finali
- 7. Supporta il confronto tra agenti eterogenei
- 8. Riporta scorecard calibrati sui risultati a livello di processo
Entità
Istituzioni
- arXiv