MPR-GUI: Benchmarking della Percezione e del Ragionamento di Agenti GUI Multilingue
Un nuovo benchmark chiamato MPR-GUI-Bench è stato sviluppato da ricercatori per valutare le capacità di percezione e ragionamento (P&R) multilingue dei grandi modelli visione-linguaggio (LVLM) che funzionano come agenti di interfaccia utente grafica (GUI). Questo benchmark affronta due significative carenze riscontrate nelle attuali valutazioni GUI: la mancanza di diagnostiche dettagliate per individuare specifici fallimenti di P&R e l'assenza di ambienti di valutazione cross-linguistici ben allineati. MPR-GUI-Bench include impostazioni allineate in sei lingue e otto compiti specifici di P&R. I risultati iniziali indicano notevoli disparità di performance tra contesti inglesi e non inglesi, specialmente in compiti che richiedono un ragionamento intensivo. Questa ricerca è disponibile su arXiv con l'identificatore 2512.00756.
Fatti principali
- 1. MPR-GUI-Bench è un benchmark multilingue per agenti GUI.
- 2. Valuta le capacità di percezione e ragionamento (P&R) dei LVLM.
- 3. Il benchmark copre sei lingue e otto compiti di P&R a grana fine.
- 4. I benchmark esistenti mancano di diagnostiche a grana fine per i fallimenti di P&R.
- 5. I benchmark esistenti mancano di ambienti di valutazione cross-linguistici strettamente allineati.
- 6. MPR-GUI-Bench fornisce ambienti strettamente allineati tra le lingue.
- 7. I risultati mostrano divari consistenti di P&R tra contesti inglesi e non inglesi.
- 8. Il lavoro è pubblicato su arXiv (ID: 2512.00756).
Entità
Istituzioni
- arXiv