SaaS-Bench: Nuovo benchmark testa gli agenti AI su compiti software reali

ai-technology · 2026-05-18

I ricercatori hanno introdotto SaaS-Bench, un benchmark progettato per valutare gli agenti che utilizzano computer (CUA) su flussi di lavoro professionali realistici all'interno di ambienti Software-as-a-Service (SaaS). Il benchmark comprende 23 sistemi SaaS distribuibili in sei domini professionali, con 106 compiti che richiedono esecuzione a lungo termine, coordinamento tra applicazioni e conoscenze specifiche del dominio. Questo lavoro affronta le limitazioni dei benchmark esistenti per agenti web e GUI, che spesso si basano su ambienti semplificati o compiti isolati. SaaS-Bench mira a valutare le capacità dei CUA in scenari dinamici del mondo reale, estendendo i grandi modelli linguistici (LLM) oltre il ragionamento testuale all'esecuzione di azioni in ambienti complessi come browser web e GUI.

Fatti principali

SaaS-Bench include 23 sistemi SaaS distribuibili in sei domini professionali.
Il benchmark contiene 106 compiti basati su scenari lavorativi realistici.
I compiti richiedono esecuzione a lungo termine e coordinamento tra applicazioni.
I benchmark esistenti per agenti web e GUI spesso si basano su ambienti semplificati.
SaaS-Bench valuta gli agenti che utilizzano computer (CUA) in stati di sistema dinamici.
La ricerca estende i LLM oltre il ragionamento testuale all'esecuzione di azioni.
Gli ambienti SaaS ospitano una grande parte del lavoro digitale moderno.
Il benchmark copre sia interazioni testuali che GUI.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18