ARTFEED — Contemporary Art Intelligence

RoadmapBench: Nuovo Benchmark per Agenti di Codifica a Lungo Termine

other · 2026-05-18

RoadmapBench è un benchmark innovativo volto a valutare gli agenti di codifica AI su progetti di sviluppo software complessi che coinvolgono molteplici obiettivi su periodi estesi. A differenza dei benchmark attuali che si concentrano esclusivamente sulla correzione di singoli bug da repository Python, RoadmapBench comprende 115 attività basate su autentici aggiornamenti di versione open-source provenienti da 17 repository e cinque linguaggi di programmazione. Ogni attività richiede che un agente incorpori funzionalità da una versione specificata, con una modifica media di 3.700 righe su 51 file. Questo benchmark è stato valutato utilizzando tredici modelli avanzati, con Claude-Opus-4.7 che ha raggiunto le prestazioni più elevate. Colma un vuoto significativo nella valutazione degli agenti per scenari di sviluppo estesi e reali.

Fatti principali

  • RoadmapBench include 115 attività di codifica a lungo termine.
  • Le attività si basano su aggiornamenti di versione open-source reali.
  • Copre 17 repository e 5 linguaggi di programmazione.
  • La modifica mediana è di 3.700 righe su 51 file.
  • Valutato su tredici modelli all'avanguardia.
  • Claude-Opus-4.7 ha ottenuto le prestazioni più forti.
  • I benchmark esistenti si concentrano su correzioni di singoli bug da repository Python.
  • RoadmapBench colma il divario nella valutazione dello sviluppo a lungo termine.

Entità

Fonti