InteractWeb-Bench: Benchmarking di Agenti Multimodali per la Generazione Interattiva di Siti Web

ai-technology · 2026-05-01

Un team di ricercatori ha presentato InteractWeb-Bench, il primo benchmark interattivo multimodale progettato per la creazione di siti web da parte di utenti non esperti che utilizzano strumenti low-code. Questo benchmark affronta il problema del disallineamento semantico derivante da istruzioni poco chiare e di scarsa qualità fornite da tali utenti, un problema definito "esecuzione cieca". Incorpora quattro diversi agenti utente e variazioni nelle istruzioni basate su profili per simulare una gamma di comportamenti degli utenti, come ambiguità, ridondanza e contraddizioni. La ricerca è disponibile su arXiv con ID 2604.27419.

Fatti principali

InteractWeb-Bench è il primo benchmark interattivo multimodale per la generazione di siti web in condizioni di utenti non esperti con strumenti low-code.
Affronta la modalità di fallimento chiamata 'esecuzione cieca' causata dal disallineamento semantico.
Il benchmark introduce quattro tipi di agenti utente e perturbazioni delle istruzioni basate su profili.
Simula comportamenti degli utenti tra cui ambiguità, ridondanza e contraddizione.
La ricerca è pubblicata su arXiv con ID 2604.27419.
Il lavoro si concentra su modelli linguistici multimodali di grandi dimensioni (MLLM) e agenti di codifica.
I benchmark esistenti si basano su assunzioni idealizzate con input ben strutturati e impostazioni di esecuzione statiche.
Lo sviluppo reale è vincolato da istruzioni ambigue e di bassa qualità da parte di utenti non esperti.

InteractWeb-Bench: Benchmarking di Agenti Multimodali per la Generazione Interattiva di Siti Web

Fatti principali

Entità

Istituzioni

Fonti