RoadmapBench: Nuovo Benchmark per Agenti di Codifica a Lungo Termine

other · 2026-05-18

RoadmapBench è un benchmark innovativo volto a valutare gli agenti di codifica AI su progetti di sviluppo software complessi che coinvolgono molteplici obiettivi su periodi estesi. A differenza dei benchmark attuali che si concentrano esclusivamente sulla correzione di singoli bug da repository Python, RoadmapBench comprende 115 attività basate su autentici aggiornamenti di versione open-source provenienti da 17 repository e cinque linguaggi di programmazione. Ogni attività richiede che un agente incorpori funzionalità da una versione specificata, con una modifica media di 3.700 righe su 51 file. Questo benchmark è stato valutato utilizzando tredici modelli avanzati, con Claude-Opus-4.7 che ha raggiunto le prestazioni più elevate. Colma un vuoto significativo nella valutazione degli agenti per scenari di sviluppo estesi e reali.

Fatti principali

RoadmapBench include 115 attività di codifica a lungo termine.
Le attività si basano su aggiornamenti di versione open-source reali.
Copre 17 repository e 5 linguaggi di programmazione.
La modifica mediana è di 3.700 righe su 51 file.
Valutato su tredici modelli all'avanguardia.
Claude-Opus-4.7 ha ottenuto le prestazioni più forti.
I benchmark esistenti si concentrano su correzioni di singoli bug da repository Python.
RoadmapBench colma il divario nella valutazione dello sviluppo a lungo termine.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18