Nuovo Benchmark Amazon-Bench Affronta le Lacune nella Valutazione degli Agenti Web per l'E-commerce
È stato proposto un nuovo benchmark chiamato Amazon-Bench per affrontare significative limitazioni nelle attuali valutazioni degli agenti web che operano sulle piattaforme di e-commerce. I benchmark esistenti si concentrano principalmente su compiti di ricerca prodotti come trovare articoli specifici, non riuscendo a catturare la gamma più ampia di funzionalità disponibili su piattaforme reali come Amazon. Queste funzionalità includono operazioni di gestione account e gestione di carte regalo. I metodi di valutazione attuali tipicamente valutano solo se un agente completa una query utente, ignorando i potenziali rischi coinvolti nelle applicazioni pratiche. Gli agenti web possono apportare modifiche non intenzionali che impattano negativamente sugli account utente, come acquistare articoli errati, eliminare indirizzi salvati o configurare erroneamente le impostazioni di ricarica automatica. Il benchmark mira a generare query utente che riflettano meglio la funzionalità completa delle piattaforme di e-commerce, incorporando contemporaneamente la valutazione del rischio nel quadro di valutazione. Questo affronta due problemi principali identificati negli attuali benchmark del dominio e-commerce. La ricerca è documentata in arXiv:2508.15832v2 sotto il tipo di annuncio replace-cross.
Fatti principali
- È stato proposto un nuovo benchmark chiamato Amazon-Bench per valutare gli agenti web
- Gli attuali benchmark di e-commerce si concentrano principalmente su compiti di ricerca prodotti
- I benchmark esistenti non catturano le funzionalità più ampie della piattaforma come la gestione account
- Le valutazioni attuali ignorano i potenziali rischi derivanti da azioni non intenzionali degli agenti
- Gli agenti web possono impattare negativamente sugli account utente attraverso acquisti errati o impostazioni errate
- Il benchmark affronta le lacune nella valutazione delle operazioni delle piattaforme di e-commerce nel mondo reale
- La ricerca è documentata come arXiv:2508.15832v2
- Il tipo di annuncio è replace-cross
Entità
Istituzioni
- Amazon