PAGER: Controllo GUI Punto-Preciso per Compiti Geometrici
Un nuovo articolo di ricerca introduce PAGER, un framework progettato per affrontare compiti GUI sensibili alla precisione che richiedono accuratezza a livello di punto nella costruzione geometrica. A differenza delle interazioni GUI standard che tollerano clic a livello di regione, i compiti geometrici richiedono un posizionamento esatto delle coordinate per evitare errori topologici a cascata. L'articolo presenta PAGE Bench, un benchmark contenente 4.906 problemi e oltre 224.000 azioni a livello di pixel supervisionate dal processo. PAGER mira a colmare il divario semantico-esecutivo nei grandi modelli visione-linguaggio per il controllo punto-preciso. Il lavoro è pubblicato su arXiv con identificatore 2605.15963.
Fatti principali
- PAGER affronta compiti GUI sensibili alla precisione che richiedono accuratezza a livello di punto.
- Le primitive geometriche hanno dipendenze ontologiche che causano errori a cascata.
- PAGE Bench include 4.906 problemi e oltre 224.000 azioni a livello di pixel.
- L'articolo è pubblicato su arXiv con ID 2605.15963.
- I grandi modelli visione-linguaggio attualmente si basano su paradigmi tolleranti alla regione.
Entità
Istituzioni
- arXiv