ShopGym: Un Framework per il Benchmarking Realistico di Agenti Web per l'E-Commerce
Un team di ricercatori ha presentato ShopGym, un framework completo progettato per la simulazione realistica e la valutazione scalabile di agenti web per l'e-commerce. Questo framework affronta il dilemma tra i negozi online reali, che sono realistici ma instabili e non riproducibili, e i benchmark sandbox personalizzati, che offrono controllo ma mancano di varietà. Al centro di ShopGym c'è ShopArena, che trasforma le piattaforme di e-commerce live in ambienti gestibili, osservabili e riproducibili. Questo framework facilita la creazione di ambienti di valutazione variati, sia realistici che scalabili. Questo approccio innovativo mira a migliorare i confronti scientifici nello sviluppo di agenti web per l'e-commerce. I risultati sono stati pubblicati su arXiv con l'identificatore 2605.16116.
Fatti principali
- ShopGym è un framework per la simulazione realistica e il benchmarking scalabile di agenti web per l'e-commerce.
- Affronta il compromesso tra negozi online reali e benchmark sandbox creati manualmente.
- ShopArena è il livello di simulazione che converte i siti di e-commerce live in ambienti controllabili.
- Le metodologie esistenti impongono un compromesso tra realismo e riproducibilità.
- ShopGym consente ambienti di valutazione diversificati, controllabili, ispezionabili e riproducibili.
- L'articolo è stato pubblicato su arXiv con l'identificatore 2605.16116.
- Il collo di bottiglia principale identificato è metodologico: mancanza di un modo scalabile per costruire ambienti di valutazione.
- I negozi online live sono non stazionari, difficili da ispezionare e irriproducibili.
Entità
Istituzioni
- arXiv