ProgramBench: Valutare l'IA per lo Sviluppo Software Olistico
Un nuovo benchmark chiamato ProgramBench è stato lanciato dai ricercatori per valutare le capacità degli agenti di ingegneria del software basati su modelli linguistici nel creare programmi completi da zero. A differenza dei benchmark tradizionali che si concentrano su compiti specifici come la correzione di bug o l'implementazione di singole funzionalità, ProgramBench valuta le decisioni architetturali software complessive. Gli agenti ricevono solo un programma e la sua documentazione, e devono progettare e costruire una codebase che si allinei al comportamento di un eseguibile di riferimento. Attraverso fuzzing guidato dall'agente, vengono prodotti test comportamentali end-to-end, consentendo la valutazione senza dettare la struttura di implementazione. Il benchmark comprende 200 compiti, inclusi strumenti CLI compatti e software popolari come FFmpeg, SQLite e il kernel Linux. Questa iniziativa risponde alla crescente dipendenza dai modelli linguistici per lo sviluppo e la manutenzione a lungo termine delle codebase con un intervento umano minimo.
Fatti principali
- ProgramBench misura la capacità degli agenti di ingegneria del software di sviluppare software in modo olistico.
- Gli agenti devono architettare e implementare una codebase che corrisponda al comportamento dell'eseguibile di riferimento.
- I test comportamentali end-to-end vengono generati tramite fuzzing guidato dall'agente.
- Il benchmark include 200 compiti, da strumenti CLI a FFmpeg, SQLite e kernel Linux.
- I benchmark esistenti si concentrano su compiti limitati come la correzione di un singolo bug.
- I modelli linguistici sono sempre più utilizzati per avviare e mantenere codebase in modo autonomo.
Entità
—