MobiBench: Benchmark Modulare per Agenti GUI Mobili

ai-technology · 2026-05-14

I ricercatori hanno introdotto MobiBench, un framework di benchmarking offline modulare e multi-percorso per agenti GUI mobili. Gli attuali metodi di valutazione soffrono o di penalizzare azioni alternative valide nei benchmark offline statici o di scarsa scalabilità nei benchmark online live. MobiBench affronta questi problemi consentendo una valutazione ad alta fedeltà che tiene conto di molteplici sequenze di azioni valide e una valutazione modulare dei singoli componenti dell'agente. Il framework mira a fornire confronti più equi e identificare i colli di bottiglia nelle prestazioni degli agenti AI che interagiscono con applicazioni mobili.

Fatti principali

MobiBench è il primo framework di benchmarking offline modulare e multi-percorso per agenti GUI mobili.
Le attuali pratiche di valutazione si basano su benchmark offline a percorso singolo o benchmark online live.
I benchmark offline che utilizzano dataset annotati statici a percorso singolo penalizzano ingiustamente azioni alternative valide.
I benchmark online soffrono di scarsa scalabilità e riproducibilità a causa della valutazione dinamica live.
I benchmark esistenti trattano gli agenti come scatole nere monolitiche, trascurando i contributi dei singoli componenti.
MobiBench consente una valutazione ad alta fedeltà e una valutazione modulare dei componenti dell'agente.

Entità

—

Fonti

arXiv cs.AI — 2026-05-14