ARTFEED — Contemporary Art Intelligence

Vibe Code Bench: Nuovo Benchmark Testa l'IA nello Sviluppo Completo di App Web

ai-technology · 2026-05-07

Vibe Code Bench è stato lanciato dai ricercatori come un nuovo benchmark volto a valutare i modelli di IA nel campo dello sviluppo di applicazioni web end-to-end. A differenza dei benchmark tradizionali che si concentrano su specifici compiti di codifica, questo valuta l'intero processo di creazione di un'applicazione funzionale da zero. Include 100 specifiche per applicazioni web (50 per validazione pubblica e 50 per test riservati), con 964 flussi di lavoro che comprendono 10.131 sottopassi. Un agente browser autonomo conduce valutazioni su applicazioni distribuite. Tra 16 modelli avanzati, la massima accuratezza raggiunta sul set di test è del 61,8%, evidenziando le sfide ancora presenti nello sviluppo affidabile di applicazioni end-to-end. Lo studio rileva che l'auto-test durante la generazione è un predittore significativo delle prestazioni (Pearson r=0,72). Inoltre, uno studio di allineamento umano rivela che la scelta dei valutatori influenza significativamente i risultati, con un accordo a livello di passo che varia dal 31,8% al 93,6%. Questo dataset di benchmark e il suo approccio di valutazione rappresentano progressi significativi nella ricerca sulla generazione di codice IA.

Fatti principali

  • Vibe Code Bench è un benchmark per lo sviluppo di applicazioni web end-to-end.
  • Include 100 specifiche per applicazioni web (50 pubbliche, 50 riservate).
  • Ci sono 964 flussi di lavoro basati su browser con 10.131 sottopassi.
  • Le valutazioni utilizzano un agente browser autonomo su applicazioni distribuite.
  • La migliore accuratezza del modello è del 61,8% sul set di test tra 16 modelli all'avanguardia.
  • L'auto-test durante la generazione è un forte predittore delle prestazioni (Pearson r=0,72).
  • Lo studio di allineamento umano mostra che la selezione dei valutatori influisce sui risultati (accordo dal 31,8% al 93,6%).
  • Il benchmark proviene dall'articolo arXiv 2603.04601.

Entità

Istituzioni

  • arXiv

Fonti