DocOS Benchmark valuta gli agenti GUI con compiti guidati da documenti
I ricercatori hanno presentato DocOS, un benchmark per valutare la capacità degli agenti GUI di cercare proattivamente documentazione per risolvere compiti a coda lunga in ambienti web dinamici. Gli attuali agenti GUI si basano su conoscenze parametriche statiche, limitando la loro gestione di compiti che richiedono conoscenze procedurali esplicite. DocOS richiede agli agenti di navigare autonomamente nelle interfacce web e utilizzare documenti per guidare le azioni, rispecchiando la risoluzione dei problemi umana. Il benchmark è stato annunciato in un articolo su arXiv (2605.18048).
Fatti principali
- Il benchmark DocOS valuta la risoluzione di problemi guidata da documenti negli agenti GUI
- Gli attuali agenti GUI dipendono da conoscenze parametriche statiche derivanti dal pre-addestramento
- DocOS richiede agli agenti di cercare autonomamente la documentazione pertinente
- Il paradigma è chiamato Azione Proattiva Guidata da Documenti
- Il benchmark opera in ambienti web aperti, completamente interattivi e dinamici
- L'articolo è disponibile su arXiv con ID 2605.18048
- L'approccio rispecchia la risoluzione dei problemi umana utilizzando la documentazione
- Il lavoro affronta compiti a coda lunga assenti dai parametri del modello
Entità
Istituzioni
- arXiv