SaaS-Bench: Nuovo benchmark testa gli agenti AI su compiti software reali
I ricercatori hanno introdotto SaaS-Bench, un benchmark progettato per valutare gli agenti che utilizzano computer (CUA) su flussi di lavoro professionali realistici all'interno di ambienti Software-as-a-Service (SaaS). Il benchmark comprende 23 sistemi SaaS distribuibili in sei domini professionali, con 106 compiti che richiedono esecuzione a lungo termine, coordinamento tra applicazioni e conoscenze specifiche del dominio. Questo lavoro affronta le limitazioni dei benchmark esistenti per agenti web e GUI, che spesso si basano su ambienti semplificati o compiti isolati. SaaS-Bench mira a valutare le capacità dei CUA in scenari dinamici del mondo reale, estendendo i grandi modelli linguistici (LLM) oltre il ragionamento testuale all'esecuzione di azioni in ambienti complessi come browser web e GUI.
Fatti principali
- SaaS-Bench include 23 sistemi SaaS distribuibili in sei domini professionali.
- Il benchmark contiene 106 compiti basati su scenari lavorativi realistici.
- I compiti richiedono esecuzione a lungo termine e coordinamento tra applicazioni.
- I benchmark esistenti per agenti web e GUI spesso si basano su ambienti semplificati.
- SaaS-Bench valuta gli agenti che utilizzano computer (CUA) in stati di sistema dinamici.
- La ricerca estende i LLM oltre il ragionamento testuale all'esecuzione di azioni.
- Gli ambienti SaaS ospitano una grande parte del lavoro digitale moderno.
- Il benchmark copre sia interazioni testuali che GUI.
Entità
—