EvoCode-Bench: Nuovo Benchmark Testa Agenti di Codifica su Compiti Multi-Turno
EvoCode-Bench è stato lanciato dai ricercatori come un nuovo benchmark volto a valutare gli agenti di codifica durante interazioni iterative multi-turno. A differenza dei benchmark convenzionali che si concentrano su una singola specifica con una valutazione finale, EvoCode-Bench valuta la capacità degli agenti di mantenere una codebase funzionale in mezzo a requisiti mutevoli. Questo benchmark presenta 26 sfide di codifica stateful e 227 round di valutazione, dove ogni compito permette al workspace dell'agente di persistere per 5-15 round. I requisiti sono comunicati attraverso azioni osservabili, e test eseguibili cumulativi valutano sia i nuovi requisiti che quelli esistenti. Lo studio ha analizzato 13 agenti di codifica utilizzando due metriche: MT@4, un punteggio basato su quattro tentativi, e SR, un punteggio da uno stato di riferimento precedentemente completato. I risultati indicano che SR supera MT@4 di 22-40 punti per la maggior parte degli agenti, alterando le loro classifiche. L'agente con il SR più alto (78.9) si classifica solo terzo nell'esecuzione persistente (44.0 MT@4), e anche i migliori agenti raggiungono circa il 50% di successo nei compiti multi-turno.
Fatti principali
- EvoCode-Bench è un benchmark per agenti di codifica in interazioni iterative multi-turno.
- Include 26 compiti di codifica stateful e 227 round valutati.
- Ogni compito preserva il workspace dell'agente per 5-15 round.
- I requisiti sono dichiarati attraverso comportamenti osservabili.
- Test eseguibili cumulativi controllano i requisiti nuovi e precedenti.
- 13 agenti di codifica sono stati valutati utilizzando le metriche MT@4 e SR.
- SR supera MT@4 di 22-40 punti per la maggior parte degli agenti.
- L'agente con il SR più alto (78.9) si classifica terzo nell'esecuzione persistente (44.0 MT@4).
Entità
Istituzioni
- arXiv