ARTFEED — Contemporary Art Intelligence

I Modelli del Mondo Mobile Migliorano le Prestazioni degli Agenti GUI

ai-technology · 2026-05-12

Un nuovo studio condiviso su arXiv (2605.10347) esplora come i modelli del mondo possano guidare gli agenti GUI mobili. Il team ha raccolto e annotato dati da modelli del mondo mobile, addestrandoli in quattro diverse aree: testo delta, testo completo, immagini basate su diffusione e codice renderizzabile. Hanno ottenuto risultati eccellenti sia su MobileWorldBench che su Code2WorldBench. Quando hanno testato questi modelli su AITZ, AndroidControl e AndroidWorld, hanno scoperto tre punti chiave: il codice renderizzabile è il migliore per prevedere le azioni, gli ambienti simulati possono sostituire efficacemente quelli reali durante l'addestramento, e fornire indicazioni al momento del test migliora significativamente le prestazioni degli agenti meno avanzati. Questa ricerca affronta sfide cruciali nelle interazioni mobili complesse.

Fatti principali

  • Studio pubblicato su arXiv con ID 2605.10347
  • Modelli del mondo addestrati su quattro modalità: testo delta, testo completo, immagini basate su diffusione, codice renderizzabile
  • I modelli hanno raggiunto lo stato dell'arte su MobileWorldBench e Code2WorldBench
  • Valutati su AITZ, AndroidControl e AndroidWorld
  • La ricostruzione del codice renderizzabile si è rivelata la più efficace per la previsione delle conseguenze delle azioni
  • I rollout generati possono sostituire parzialmente gli ambienti reali
  • Le indicazioni al momento del test migliorano le prestazioni degli agenti, specialmente per quelli più deboli
  • La ricerca affronta interazioni mobili a lungo termine e ad alto rischio

Entità

Istituzioni

  • arXiv

Fonti