ARTFEED — Contemporary Art Intelligence

EvoCode-Bench: Nuovo Benchmark Testa Agenti di Codifica su Compiti Multi-Turno

other · 2026-05-26

EvoCode-Bench è stato lanciato dai ricercatori come un nuovo benchmark volto a valutare gli agenti di codifica durante interazioni iterative multi-turno. A differenza dei benchmark convenzionali che si concentrano su una singola specifica con una valutazione finale, EvoCode-Bench valuta la capacità degli agenti di mantenere una codebase funzionale in mezzo a requisiti mutevoli. Questo benchmark presenta 26 sfide di codifica stateful e 227 round di valutazione, dove ogni compito permette al workspace dell'agente di persistere per 5-15 round. I requisiti sono comunicati attraverso azioni osservabili, e test eseguibili cumulativi valutano sia i nuovi requisiti che quelli esistenti. Lo studio ha analizzato 13 agenti di codifica utilizzando due metriche: MT@4, un punteggio basato su quattro tentativi, e SR, un punteggio da uno stato di riferimento precedentemente completato. I risultati indicano che SR supera MT@4 di 22-40 punti per la maggior parte degli agenti, alterando le loro classifiche. L'agente con il SR più alto (78.9) si classifica solo terzo nell'esecuzione persistente (44.0 MT@4), e anche i migliori agenti raggiungono circa il 50% di successo nei compiti multi-turno.

Fatti principali

  • EvoCode-Bench è un benchmark per agenti di codifica in interazioni iterative multi-turno.
  • Include 26 compiti di codifica stateful e 227 round valutati.
  • Ogni compito preserva il workspace dell'agente per 5-15 round.
  • I requisiti sono dichiarati attraverso comportamenti osservabili.
  • Test eseguibili cumulativi controllano i requisiti nuovi e precedenti.
  • 13 agenti di codifica sono stati valutati utilizzando le metriche MT@4 e SR.
  • SR supera MT@4 di 22-40 punti per la maggior parte degli agenti.
  • L'agente con il SR più alto (78.9) si classifica terzo nell'esecuzione persistente (44.0 MT@4).

Entità

Istituzioni

  • arXiv

Fonti