RoadmapBench: Nuovo Benchmark per Agenti di Codifica a Lungo Termine
RoadmapBench è un benchmark innovativo volto a valutare gli agenti di codifica AI su progetti di sviluppo software complessi che coinvolgono molteplici obiettivi su periodi estesi. A differenza dei benchmark attuali che si concentrano esclusivamente sulla correzione di singoli bug da repository Python, RoadmapBench comprende 115 attività basate su autentici aggiornamenti di versione open-source provenienti da 17 repository e cinque linguaggi di programmazione. Ogni attività richiede che un agente incorpori funzionalità da una versione specificata, con una modifica media di 3.700 righe su 51 file. Questo benchmark è stato valutato utilizzando tredici modelli avanzati, con Claude-Opus-4.7 che ha raggiunto le prestazioni più elevate. Colma un vuoto significativo nella valutazione degli agenti per scenari di sviluppo estesi e reali.
Fatti principali
- RoadmapBench include 115 attività di codifica a lungo termine.
- Le attività si basano su aggiornamenti di versione open-source reali.
- Copre 17 repository e 5 linguaggi di programmazione.
- La modifica mediana è di 3.700 righe su 51 file.
- Valutato su tredici modelli all'avanguardia.
- Claude-Opus-4.7 ha ottenuto le prestazioni più forti.
- I benchmark esistenti si concentrano su correzioni di singoli bug da repository Python.
- RoadmapBench colma il divario nella valutazione dello sviluppo a lungo termine.
Entità
—