SimuWoB: Benchmark Sintetico per Agenti GUI Mobili
SimuWoB funge da benchmark sintetico completo specificamente progettato per agenti GUI mobili, colmando il divario tra i benchmark attuali e le applicazioni pratiche. Presenta 120 compiti impegnativi che variano per tipo e complessità, tutti creati attraverso un potente framework di ambienti virtuali che fornisce autonomamente ricompense valide. Ogni ambiente è reso disponibile come pagina web senza backend, accessibile tramite URL, facilitando la valutazione efficace di agenti basati su grandi modelli linguistici durante interazioni complesse e a lungo termine.
Fatti principali
- SimuWoB è un benchmark completamente sintetico per agenti GUI mobili
- Include 120 compiti impegnativi
- I compiti spaziano tra diversi tipi e livelli di difficoltà
- Un robusto framework di generazione di ambienti virtuali sintetizza compiti e ambienti
- Il framework fornisce automaticamente ricompense valide per ogni compito
- Ogni ambiente è distribuito come pagina web senza backend accessibile tramite URL
- Affronta le limitazioni dei benchmark esistenti che si concentrano su app open-source o compiti di operazioni su file
- I benchmark esistenti hanno una copertura limitata di interazioni complesse e a lungo termine
Entità
Istituzioni
- arXiv