ARTFEED — Contemporary Art Intelligence

MPR-GUI: Benchmarking della Percezione e del Ragionamento di Agenti GUI Multilingue

ai-technology · 2026-04-30

Un nuovo benchmark chiamato MPR-GUI-Bench è stato sviluppato da ricercatori per valutare le capacità di percezione e ragionamento (P&R) multilingue dei grandi modelli visione-linguaggio (LVLM) che funzionano come agenti di interfaccia utente grafica (GUI). Questo benchmark affronta due significative carenze riscontrate nelle attuali valutazioni GUI: la mancanza di diagnostiche dettagliate per individuare specifici fallimenti di P&R e l'assenza di ambienti di valutazione cross-linguistici ben allineati. MPR-GUI-Bench include impostazioni allineate in sei lingue e otto compiti specifici di P&R. I risultati iniziali indicano notevoli disparità di performance tra contesti inglesi e non inglesi, specialmente in compiti che richiedono un ragionamento intensivo. Questa ricerca è disponibile su arXiv con l'identificatore 2512.00756.

Fatti principali

  • 1. MPR-GUI-Bench è un benchmark multilingue per agenti GUI.
  • 2. Valuta le capacità di percezione e ragionamento (P&R) dei LVLM.
  • 3. Il benchmark copre sei lingue e otto compiti di P&R a grana fine.
  • 4. I benchmark esistenti mancano di diagnostiche a grana fine per i fallimenti di P&R.
  • 5. I benchmark esistenti mancano di ambienti di valutazione cross-linguistici strettamente allineati.
  • 6. MPR-GUI-Bench fornisce ambienti strettamente allineati tra le lingue.
  • 7. I risultati mostrano divari consistenti di P&R tra contesti inglesi e non inglesi.
  • 8. Il lavoro è pubblicato su arXiv (ID: 2512.00756).

Entità

Istituzioni

  • arXiv

Fonti