SimuWoB: Benchmark Sintetico per Agenti GUI Mobili

ai-technology · 2026-05-26

SimuWoB funge da benchmark sintetico completo specificamente progettato per agenti GUI mobili, colmando il divario tra i benchmark attuali e le applicazioni pratiche. Presenta 120 compiti impegnativi che variano per tipo e complessità, tutti creati attraverso un potente framework di ambienti virtuali che fornisce autonomamente ricompense valide. Ogni ambiente è reso disponibile come pagina web senza backend, accessibile tramite URL, facilitando la valutazione efficace di agenti basati su grandi modelli linguistici durante interazioni complesse e a lungo termine.

Fatti principali

SimuWoB è un benchmark completamente sintetico per agenti GUI mobili
Include 120 compiti impegnativi
I compiti spaziano tra diversi tipi e livelli di difficoltà
Un robusto framework di generazione di ambienti virtuali sintetizza compiti e ambienti
Il framework fornisce automaticamente ricompense valide per ogni compito
Ogni ambiente è distribuito come pagina web senza backend accessibile tramite URL
Affronta le limitazioni dei benchmark esistenti che si concentrano su app open-source o compiti di operazioni su file
I benchmark esistenti hanno una copertura limitata di interazioni complesse e a lungo termine

SimuWoB: Benchmark Sintetico per Agenti GUI Mobili

Fatti principali

Entità

Istituzioni

Fonti