I Modelli del Mondo Mobile Migliorano le Prestazioni degli Agenti GUI
Un nuovo studio condiviso su arXiv (2605.10347) esplora come i modelli del mondo possano guidare gli agenti GUI mobili. Il team ha raccolto e annotato dati da modelli del mondo mobile, addestrandoli in quattro diverse aree: testo delta, testo completo, immagini basate su diffusione e codice renderizzabile. Hanno ottenuto risultati eccellenti sia su MobileWorldBench che su Code2WorldBench. Quando hanno testato questi modelli su AITZ, AndroidControl e AndroidWorld, hanno scoperto tre punti chiave: il codice renderizzabile è il migliore per prevedere le azioni, gli ambienti simulati possono sostituire efficacemente quelli reali durante l'addestramento, e fornire indicazioni al momento del test migliora significativamente le prestazioni degli agenti meno avanzati. Questa ricerca affronta sfide cruciali nelle interazioni mobili complesse.
Fatti principali
- Studio pubblicato su arXiv con ID 2605.10347
- Modelli del mondo addestrati su quattro modalità: testo delta, testo completo, immagini basate su diffusione, codice renderizzabile
- I modelli hanno raggiunto lo stato dell'arte su MobileWorldBench e Code2WorldBench
- Valutati su AITZ, AndroidControl e AndroidWorld
- La ricostruzione del codice renderizzabile si è rivelata la più efficace per la previsione delle conseguenze delle azioni
- I rollout generati possono sostituire parzialmente gli ambienti reali
- Le indicazioni al momento del test migliorano le prestazioni degli agenti, specialmente per quelli più deboli
- La ricerca affronta interazioni mobili a lungo termine e ad alto rischio
Entità
Istituzioni
- arXiv