WindowsWorld: un benchmark per agenti GUI in flussi di lavoro multi-applicazione
Un nuovo benchmark chiamato WindowsWorld è stato sviluppato da ricercatori per valutare agenti GUI che eseguono compiti complessi e multi-step che richiedono la collaborazione tra diverse applicazioni desktop. A differenza dei benchmark attuali che si concentrano su compiti in applicazioni singole, WindowsWorld replica flussi di lavoro professionali reali. Questo benchmark utilizza un framework multi-agente influenzato da 16 diverse occupazioni per creare compiti a quattro diversi livelli di difficoltà, che vengono successivamente perfezionati tramite valutazione umana ed eseguiti in un ambiente simulato. Include 181 compiti, con una media di 5.0 sotto-obiettivi su 17 applicazioni desktop comuni, e il 78% dei compiti è intrinsecamente multi-applicazione. I risultati sono stati condivisi su arXiv.
Fatti principali
- WindowsWorld è un benchmark per agenti GUI in flussi di lavoro multi-applicazione.
- Colma il divario dei benchmark esistenti che si concentrano su compiti in applicazioni singole.
- Il benchmark utilizza un framework multi-agente guidato da 16 occupazioni.
- I compiti sono generati a quattro livelli di difficoltà con ispezione intermedia.
- I compiti sono perfezionati da revisione umana ed eseguiti in un ambiente simulato.
- WindowsWorld contiene 181 compiti con una media di 5.0 sotto-obiettivi.
- I compiti coprono 17 applicazioni desktop comuni.
- Il 78% dei compiti è intrinsecamente multi-applicazione.
Entità
—