MobiBench: Benchmark Modulare per Agenti GUI Mobili
I ricercatori hanno introdotto MobiBench, un framework di benchmarking offline modulare e multi-percorso per agenti GUI mobili. Gli attuali metodi di valutazione soffrono o di penalizzare azioni alternative valide nei benchmark offline statici o di scarsa scalabilità nei benchmark online live. MobiBench affronta questi problemi consentendo una valutazione ad alta fedeltà che tiene conto di molteplici sequenze di azioni valide e una valutazione modulare dei singoli componenti dell'agente. Il framework mira a fornire confronti più equi e identificare i colli di bottiglia nelle prestazioni degli agenti AI che interagiscono con applicazioni mobili.
Fatti principali
- MobiBench è il primo framework di benchmarking offline modulare e multi-percorso per agenti GUI mobili.
- Le attuali pratiche di valutazione si basano su benchmark offline a percorso singolo o benchmark online live.
- I benchmark offline che utilizzano dataset annotati statici a percorso singolo penalizzano ingiustamente azioni alternative valide.
- I benchmark online soffrono di scarsa scalabilità e riproducibilità a causa della valutazione dinamica live.
- I benchmark esistenti trattano gli agenti come scatole nere monolitiche, trascurando i contributi dei singoli componenti.
- MobiBench consente una valutazione ad alta fedeltà e una valutazione modulare dei componenti dell'agente.
Entità
—