MPR-GUI: Benchmarking della Percezione e del Ragionamento di Agenti GUI Multilingue

ai-technology · 2026-04-30

Un nuovo benchmark chiamato MPR-GUI-Bench è stato sviluppato da ricercatori per valutare le capacità di percezione e ragionamento (P&R) multilingue dei grandi modelli visione-linguaggio (LVLM) che funzionano come agenti di interfaccia utente grafica (GUI). Questo benchmark affronta due significative carenze riscontrate nelle attuali valutazioni GUI: la mancanza di diagnostiche dettagliate per individuare specifici fallimenti di P&R e l'assenza di ambienti di valutazione cross-linguistici ben allineati. MPR-GUI-Bench include impostazioni allineate in sei lingue e otto compiti specifici di P&R. I risultati iniziali indicano notevoli disparità di performance tra contesti inglesi e non inglesi, specialmente in compiti che richiedono un ragionamento intensivo. Questa ricerca è disponibile su arXiv con l'identificatore 2512.00756.

Fatti principali

1. MPR-GUI-Bench è un benchmark multilingue per agenti GUI.
2. Valuta le capacità di percezione e ragionamento (P&R) dei LVLM.
3. Il benchmark copre sei lingue e otto compiti di P&R a grana fine.
4. I benchmark esistenti mancano di diagnostiche a grana fine per i fallimenti di P&R.
5. I benchmark esistenti mancano di ambienti di valutazione cross-linguistici strettamente allineati.
6. MPR-GUI-Bench fornisce ambienti strettamente allineati tra le lingue.
7. I risultati mostrano divari consistenti di P&R tra contesti inglesi e non inglesi.
8. Il lavoro è pubblicato su arXiv (ID: 2512.00756).

MPR-GUI: Benchmarking della Percezione e del Ragionamento di Agenti GUI Multilingue

Fatti principali

Entità

Istituzioni

Fonti