DRS-GUI: Ricerca Dinamica di Regioni Senza Addestramento per il Grounding di GUI

ai-technology · 2026-05-18

Un nuovo framework chiamato DRS-GUI è stato introdotto dai ricercatori, progettato per il grounding di GUI senza necessità di addestramento, e si integra perfettamente con i Modelli Linguistici Multimodali (MLLM) esistenti. Traendo ispirazione dalle tecniche di ricerca visiva umana, DRS-GUI impiega un UI Perceptor leggero che utilizza tre azioni percettive: Focus, Shift e Scatter, per investigare sistematicamente le interfacce e creare proposte di regioni. Un Action Planner, che utilizza la Ricerca ad Albero Monte Carlo (MCTS), organizza dinamicamente queste azioni e valuta le proposte basandosi su un premio di qualità della regione. Questo approccio affronta efficacemente le difficoltà di individuare elementi rilevanti da screenshot ad alta risoluzione pieni di componenti UI estranei, migliorando così la funzionalità degli agenti GUI basati su MLLM.

Fatti principali

DRS-GUI è un framework di ricerca dinamica di regioni senza addestramento per il grounding di GUI.
Si integra nei Modelli Linguistici Multimodali (MLLM) esistenti.
Il framework è ispirato a come gli umani regolano dinamicamente l'ambito percettivo.
Introduce un UI Perceptor leggero con tre azioni: Focus, Shift e Scatter.
Un Action Planner basato sulla Ricerca ad Albero Monte Carlo (MCTS) pianifica le azioni.
Un premio di qualità della regione valuta e seleziona le proposte di regioni.
Il metodo si rivolge a screenshot ad alta risoluzione con componenti UI irrilevanti.
Il lavoro è pubblicato su arXiv con ID 2605.15542.

DRS-GUI: Ricerca Dinamica di Regioni Senza Addestramento per il Grounding di GUI

Fatti principali

Entità

Istituzioni

Fonti