InteractWeb-Bench: Benchmarking di Agenti Multimodali per la Generazione Interattiva di Siti Web
Un team di ricercatori ha presentato InteractWeb-Bench, il primo benchmark interattivo multimodale progettato per la creazione di siti web da parte di utenti non esperti che utilizzano strumenti low-code. Questo benchmark affronta il problema del disallineamento semantico derivante da istruzioni poco chiare e di scarsa qualità fornite da tali utenti, un problema definito "esecuzione cieca". Incorpora quattro diversi agenti utente e variazioni nelle istruzioni basate su profili per simulare una gamma di comportamenti degli utenti, come ambiguità, ridondanza e contraddizioni. La ricerca è disponibile su arXiv con ID 2604.27419.
Fatti principali
- InteractWeb-Bench è il primo benchmark interattivo multimodale per la generazione di siti web in condizioni di utenti non esperti con strumenti low-code.
- Affronta la modalità di fallimento chiamata 'esecuzione cieca' causata dal disallineamento semantico.
- Il benchmark introduce quattro tipi di agenti utente e perturbazioni delle istruzioni basate su profili.
- Simula comportamenti degli utenti tra cui ambiguità, ridondanza e contraddizione.
- La ricerca è pubblicata su arXiv con ID 2604.27419.
- Il lavoro si concentra su modelli linguistici multimodali di grandi dimensioni (MLLM) e agenti di codifica.
- I benchmark esistenti si basano su assunzioni idealizzate con input ben strutturati e impostazioni di esecuzione statiche.
- Lo sviluppo reale è vincolato da istruzioni ambigue e di bassa qualità da parte di utenti non esperti.
Entità
Istituzioni
- arXiv