EvoCode-Bench: Nuovo Benchmark Testa Agenti di Codifica su Compiti Multi-Turno

other · 2026-05-26

EvoCode-Bench è stato lanciato dai ricercatori come un nuovo benchmark volto a valutare gli agenti di codifica durante interazioni iterative multi-turno. A differenza dei benchmark convenzionali che si concentrano su una singola specifica con una valutazione finale, EvoCode-Bench valuta la capacità degli agenti di mantenere una codebase funzionale in mezzo a requisiti mutevoli. Questo benchmark presenta 26 sfide di codifica stateful e 227 round di valutazione, dove ogni compito permette al workspace dell'agente di persistere per 5-15 round. I requisiti sono comunicati attraverso azioni osservabili, e test eseguibili cumulativi valutano sia i nuovi requisiti che quelli esistenti. Lo studio ha analizzato 13 agenti di codifica utilizzando due metriche: MT@4, un punteggio basato su quattro tentativi, e SR, un punteggio da uno stato di riferimento precedentemente completato. I risultati indicano che SR supera MT@4 di 22-40 punti per la maggior parte degli agenti, alterando le loro classifiche. L'agente con il SR più alto (78.9) si classifica solo terzo nell'esecuzione persistente (44.0 MT@4), e anche i migliori agenti raggiungono circa il 50% di successo nei compiti multi-turno.

Fatti principali

EvoCode-Bench è un benchmark per agenti di codifica in interazioni iterative multi-turno.
Include 26 compiti di codifica stateful e 227 round valutati.
Ogni compito preserva il workspace dell'agente per 5-15 round.
I requisiti sono dichiarati attraverso comportamenti osservabili.
Test eseguibili cumulativi controllano i requisiti nuovi e precedenti.
13 agenti di codifica sono stati valutati utilizzando le metriche MT@4 e SR.
SR supera MT@4 di 22-40 punti per la maggior parte degli agenti.
L'agente con il SR più alto (78.9) si classifica terzo nell'esecuzione persistente (44.0 MT@4).

EvoCode-Bench: Nuovo Benchmark Testa Agenti di Codifica su Compiti Multi-Turno

Fatti principali

Entità

Istituzioni

Fonti