ARTFEED — Contemporary Art Intelligence

SimuWoB: Benchmark Sintetico per Agenti GUI Mobili

ai-technology · 2026-05-26

SimuWoB funge da benchmark sintetico completo specificamente progettato per agenti GUI mobili, colmando il divario tra i benchmark attuali e le applicazioni pratiche. Presenta 120 compiti impegnativi che variano per tipo e complessità, tutti creati attraverso un potente framework di ambienti virtuali che fornisce autonomamente ricompense valide. Ogni ambiente è reso disponibile come pagina web senza backend, accessibile tramite URL, facilitando la valutazione efficace di agenti basati su grandi modelli linguistici durante interazioni complesse e a lungo termine.

Fatti principali

  • SimuWoB è un benchmark completamente sintetico per agenti GUI mobili
  • Include 120 compiti impegnativi
  • I compiti spaziano tra diversi tipi e livelli di difficoltà
  • Un robusto framework di generazione di ambienti virtuali sintetizza compiti e ambienti
  • Il framework fornisce automaticamente ricompense valide per ogni compito
  • Ogni ambiente è distribuito come pagina web senza backend accessibile tramite URL
  • Affronta le limitazioni dei benchmark esistenti che si concentrano su app open-source o compiti di operazioni su file
  • I benchmark esistenti hanno una copertura limitata di interazioni complesse e a lungo termine

Entità

Istituzioni

  • arXiv

Fonti