ARTFEED — Contemporary Art Intelligence

MobiBench: Benchmark Modulare per Agenti GUI Mobili

ai-technology · 2026-05-14

I ricercatori hanno introdotto MobiBench, un framework di benchmarking offline modulare e multi-percorso per agenti GUI mobili. Gli attuali metodi di valutazione soffrono o di penalizzare azioni alternative valide nei benchmark offline statici o di scarsa scalabilità nei benchmark online live. MobiBench affronta questi problemi consentendo una valutazione ad alta fedeltà che tiene conto di molteplici sequenze di azioni valide e una valutazione modulare dei singoli componenti dell'agente. Il framework mira a fornire confronti più equi e identificare i colli di bottiglia nelle prestazioni degli agenti AI che interagiscono con applicazioni mobili.

Fatti principali

  • MobiBench è il primo framework di benchmarking offline modulare e multi-percorso per agenti GUI mobili.
  • Le attuali pratiche di valutazione si basano su benchmark offline a percorso singolo o benchmark online live.
  • I benchmark offline che utilizzano dataset annotati statici a percorso singolo penalizzano ingiustamente azioni alternative valide.
  • I benchmark online soffrono di scarsa scalabilità e riproducibilità a causa della valutazione dinamica live.
  • I benchmark esistenti trattano gli agenti come scatole nere monolitiche, trascurando i contributi dei singoli componenti.
  • MobiBench consente una valutazione ad alta fedeltà e una valutazione modulare dei componenti dell'agente.

Entità

Fonti