Workspace-Bench: Benchmarking degli Agenti AI su Attività con Dipendenze di File su Larga Scala

ai-technology · 2026-05-07

I ricercatori hanno creato un nuovo standard chiamato Workspace-Bench per valutare gli agenti AI che affrontano compiti di apprendimento in ambienti di lavoro che dipendono fortemente da file. Questo benchmark simula ambienti di lavoro reali con cinque diversi profili di lavoratori e 74 tipi di file, per un totale di 20.476 file (fino a 20 GB) e 388 attività uniche. Ogni attività ha il proprio grafo di dipendenze dei file e viene valutata utilizzando 7.399 rubriche che testano il recupero incrociato di file, il ragionamento contestuale e il processo decisionale adattivo. Per semplicità, esiste anche Workspace-Bench-Lite, che include 100 attività. Questo studio colma le lacune dei benchmark esistenti che spesso utilizzano file creati artificialmente privi di applicabilità nel mondo reale. È possibile consultare l'articolo di ricerca su arXiv con l'identificatore 2605.03596.

Fatti principali

Workspace-Bench valuta gli agenti AI nell'apprendimento in ambienti di lavoro con dipendenze di file su larga scala.
Il benchmark include 5 profili di lavoratori, 74 tipi di file, 20.476 file (fino a 20 GB).
Ci sono 388 attività, ciascuna con il proprio grafo di dipendenze dei file.
La valutazione utilizza 7.399 rubriche per il recupero incrociato di file, il ragionamento contestuale e il processo decisionale adattivo.
Workspace-Bench-Lite è un sottoinsieme di 100 attività.
I benchmark esistenti mancano di dipendenze di file del mondo reale.
L'articolo è su arXiv: 2605.03596.

Workspace-Bench: Benchmarking degli Agenti AI su Attività con Dipendenze di File su Larga Scala

Fatti principali

Entità

Istituzioni

Fonti