Video2GUI: Addestramento Automatico di Agenti GUI da Video Internet
I ricercatori hanno introdotto Video2GUI, un sistema automatizzato progettato per estrarre percorsi di interazione GUI da video non etichettati trovati online, affrontando la sfida della scarsità di dati di addestramento su larga scala per gli agenti GUI. Questo framework utilizza un metodo di filtraggio dal generale al dettaglio per individuare video tutorial GUI di alta qualità, trasformandoli in traiettorie di agenti organizzate. Applicando questo processo a 500 milioni di record di metadati video, hanno creato WildGUI, un dataset con 12 milioni di traiettorie di interazione in oltre 1.500 applicazioni e siti web. Il pre-addestramento di Qwen2.5-VL e Mimo-VL su WildGUI mostra miglioramenti significativi nelle prestazioni degli agenti GUI, evidenziando l'efficacia dell'approccio.
Fatti principali
- Video2GUI è un framework completamente automatizzato per estrarre traiettorie di interazione GUI da video Internet non etichettati.
- Utilizza una strategia di filtraggio dal generale al dettaglio per identificare video tutorial GUI di alta qualità.
- Il dataset WildGUI contiene 12 milioni di traiettorie di interazione da oltre 1.500 applicazioni e siti web.
- Il processo è stato applicato a 500 milioni di voci di metadati video.
- Il pre-addestramento di Qwen2.5-VL e Mimo-VL su WildGUI migliora le prestazioni degli agenti GUI.
- La ricerca è pubblicata come arXiv:2605.14747v1.
- Il framework affronta la scarsità di dati di addestramento su larga scala per gli agenti GUI.
- I dataset esistenti si basano su costose annotazioni manuali e sono limitati a domini ristretti.
Entità
Istituzioni
- arXiv