WindowsWorld: un benchmark per agenti GUI in flussi di lavoro multi-applicazione

other · 2026-05-01

Un nuovo benchmark chiamato WindowsWorld è stato sviluppato da ricercatori per valutare agenti GUI che eseguono compiti complessi e multi-step che richiedono la collaborazione tra diverse applicazioni desktop. A differenza dei benchmark attuali che si concentrano su compiti in applicazioni singole, WindowsWorld replica flussi di lavoro professionali reali. Questo benchmark utilizza un framework multi-agente influenzato da 16 diverse occupazioni per creare compiti a quattro diversi livelli di difficoltà, che vengono successivamente perfezionati tramite valutazione umana ed eseguiti in un ambiente simulato. Include 181 compiti, con una media di 5.0 sotto-obiettivi su 17 applicazioni desktop comuni, e il 78% dei compiti è intrinsecamente multi-applicazione. I risultati sono stati condivisi su arXiv.

Fatti principali

WindowsWorld è un benchmark per agenti GUI in flussi di lavoro multi-applicazione.
Colma il divario dei benchmark esistenti che si concentrano su compiti in applicazioni singole.
Il benchmark utilizza un framework multi-agente guidato da 16 occupazioni.
I compiti sono generati a quattro livelli di difficoltà con ispezione intermedia.
I compiti sono perfezionati da revisione umana ed eseguiti in un ambiente simulato.
WindowsWorld contiene 181 compiti con una media di 5.0 sotto-obiettivi.
I compiti coprono 17 applicazioni desktop comuni.
Il 78% dei compiti è intrinsecamente multi-applicazione.

Entità

—

Fonti

arXiv cs.AI — 2026-05-01