VISTA Benchmark Testa Agenti AI sulla Generazione di App Web Visive
Un nuovo benchmark chiamato VISTA (VIsual Spec-To-App Benchmark) è stato presentato dai ricercatori per valutare le capacità degli agenti basati su LLM nel generare applicazioni web dall'inizio alla fine. A differenza dei benchmark precedenti che enfatizzavano compiti algoritmici, VISTA si concentra sullo sviluppo realistico orientato all'interfaccia utente, sfidando gli agenti a creare applicazioni funzionali e visivamente coerenti a partire da input vaghi. Il benchmark delinea cinque condizioni per i prompt, che variano lungo due dimensioni: fedeltà visiva/strutturale e vincoli di stack. Queste condizioni includono scenari che vanno dal solo testo con scelte di stack illimitate al testo accompagnato da screenshot e una struttura Figma semplificata con opzioni di stack libere. Ogni pagina nel benchmark è annotata approfonditamente con elementi UI interattivi e circa tre annotazioni visive. Questa ricerca è dettagliata nell'articolo arXiv 2605.26144.
Fatti principali
- VISTA sta per VIsual Spec-To-App Benchmark
- Il benchmark valuta agenti basati su LLM nella generazione di app web
- Si concentra sullo sviluppo incentrato sull'interfaccia utente piuttosto che su compiti algoritmici
- Definisce cinque condizioni di informazione per i prompt
- Le condizioni variano lungo gli assi di fedeltà visiva/strutturale e vincoli di stack
- Ogni pagina è annotata con componenti UI interattivi e tre annotazioni visive
- Descritto nell'articolo arXiv 2605.26144
- Mira a input realistici e poco specificati
Entità
Istituzioni
- arXiv