OmniGUI: un benchmark per testare agenti AI su audio, video e immagini

other · 2026-05-20

I ricercatori hanno introdotto OmniGUI, un nuovo benchmark per valutare agenti AI che interagiscono con interfacce grafiche utente (GUI) di smartphone utilizzando molteplici modalità di input: immagini statiche, audio sincrono e videoclip. A differenza dei benchmark esistenti che si basano esclusivamente su screenshot statici, OmniGUI cattura i segnali audio transitori e le dinamiche video temporali tipici dell'uso reale degli smartphone. Il dataset include 709 episodi dimostrati da esperti, composti da 2.579 passaggi d'azione in 29 applicazioni, ciascuno annotato con livelli oggettivi di dipendenza multimodale. Il benchmark è progettato per testare modelli omni-modali fondamentali in grado di elaborare nativamente input intervallati, dato che i framework dedicati per agenti GUI omni-modali sono ancora in fase di sviluppo iniziale. Questo lavoro mira a colmare il divario tra le attuali valutazioni degli agenti GUI e la natura multimodale delle interazioni reali con gli smartphone.

Fatti principali

OmniGUI è il primo benchmark a livello di passaggio per agenti GUI in ambienti smartphone omni-modali.
Fornisce input multimodali continui e intervallati: immagini statiche, audio sincrono e videoclip a ogni passaggio d'azione.
Il dataset contiene 709 episodi dimostrati da esperti (2.579 passaggi d'azione) in 29 applicazioni.
Ogni episodio è annotato con livelli oggettivi di dipendenza multimodale.
Gli attuali benchmark per agenti GUI si basano prevalentemente su screenshot statici.
OmniGUI si rivolge a modelli omni-modali fondamentali che elaborano nativamente input intervallati.
I framework dedicati per agenti GUI omni-modali sono attualmente in fase nascente.
Il benchmark risponde alla necessità di valutare gli agenti su segnali audio transitori e dinamiche video temporali.

OmniGUI: un benchmark per testare agenti AI su audio, video e immagini

Fatti principali

Entità

Istituzioni

Fonti