ARTFEED — Contemporary Art Intelligence

ProgramBench: Valutare l'IA per lo Sviluppo Software Olistico

ai-technology · 2026-05-07

Un nuovo benchmark chiamato ProgramBench è stato lanciato dai ricercatori per valutare le capacità degli agenti di ingegneria del software basati su modelli linguistici nel creare programmi completi da zero. A differenza dei benchmark tradizionali che si concentrano su compiti specifici come la correzione di bug o l'implementazione di singole funzionalità, ProgramBench valuta le decisioni architetturali software complessive. Gli agenti ricevono solo un programma e la sua documentazione, e devono progettare e costruire una codebase che si allinei al comportamento di un eseguibile di riferimento. Attraverso fuzzing guidato dall'agente, vengono prodotti test comportamentali end-to-end, consentendo la valutazione senza dettare la struttura di implementazione. Il benchmark comprende 200 compiti, inclusi strumenti CLI compatti e software popolari come FFmpeg, SQLite e il kernel Linux. Questa iniziativa risponde alla crescente dipendenza dai modelli linguistici per lo sviluppo e la manutenzione a lungo termine delle codebase con un intervento umano minimo.

Fatti principali

  • ProgramBench misura la capacità degli agenti di ingegneria del software di sviluppare software in modo olistico.
  • Gli agenti devono architettare e implementare una codebase che corrisponda al comportamento dell'eseguibile di riferimento.
  • I test comportamentali end-to-end vengono generati tramite fuzzing guidato dall'agente.
  • Il benchmark include 200 compiti, da strumenti CLI a FFmpeg, SQLite e kernel Linux.
  • I benchmark esistenti si concentrano su compiti limitati come la correzione di un singolo bug.
  • I modelli linguistici sono sempre più utilizzati per avviare e mantenere codebase in modo autonomo.

Entità

Fonti