ProgramBench: Valutare l'IA per lo Sviluppo Software Olistico

ai-technology · 2026-05-07

Un nuovo benchmark chiamato ProgramBench è stato lanciato dai ricercatori per valutare le capacità degli agenti di ingegneria del software basati su modelli linguistici nel creare programmi completi da zero. A differenza dei benchmark tradizionali che si concentrano su compiti specifici come la correzione di bug o l'implementazione di singole funzionalità, ProgramBench valuta le decisioni architetturali software complessive. Gli agenti ricevono solo un programma e la sua documentazione, e devono progettare e costruire una codebase che si allinei al comportamento di un eseguibile di riferimento. Attraverso fuzzing guidato dall'agente, vengono prodotti test comportamentali end-to-end, consentendo la valutazione senza dettare la struttura di implementazione. Il benchmark comprende 200 compiti, inclusi strumenti CLI compatti e software popolari come FFmpeg, SQLite e il kernel Linux. Questa iniziativa risponde alla crescente dipendenza dai modelli linguistici per lo sviluppo e la manutenzione a lungo termine delle codebase con un intervento umano minimo.

Fatti principali

ProgramBench misura la capacità degli agenti di ingegneria del software di sviluppare software in modo olistico.
Gli agenti devono architettare e implementare una codebase che corrisponda al comportamento dell'eseguibile di riferimento.
I test comportamentali end-to-end vengono generati tramite fuzzing guidato dall'agente.
Il benchmark include 200 compiti, da strumenti CLI a FFmpeg, SQLite e kernel Linux.
I benchmark esistenti si concentrano su compiti limitati come la correzione di un singolo bug.
I modelli linguistici sono sempre più utilizzati per avviare e mantenere codebase in modo autonomo.

Entità

—

Fonti

arXiv cs.AI — 2026-05-06