GUI-SD: Primo Framework di Auto-Distillazione On-Policy per il Grounding di GUI
I ricercatori hanno introdotto GUI-SD, il primo framework di auto-distillazione on-policy (OPSD) progettato per il grounding di interfacce utente grafiche (GUI). Questo framework traduce comandi in linguaggio naturale nelle coordinate visive di elementi specifici. A differenza delle tecniche di apprendimento per rinforzo come GRPO, che richiedono costosi rollout multipli e incontrano segnali sparsi con campioni difficili, OPSD fornisce una supervisione densa a livello di token da un singolo rollout. GUI-SD crea un contesto privilegiato visivamente potenziato per il teacher utilizzando un bounding box target e una maschera morbida gaussiana, fornendo così una guida preziosa senza rivelare le coordinate esatte. Inoltre, incorpora la distillazione guidata dall'entropia per regolare dinamicamente i pesi dei token in base alle cifre, mirando a migliorare le prestazioni e l'efficienza per agenti GUI autonomi.
Fatti principali
- GUI-SD è il primo framework OPSD per il grounding di GUI.
- Il grounding di GUI mappa istruzioni in linguaggio naturale alle coordinate visive degli elementi target.
- I metodi di apprendimento per rinforzo come GRPO richiedono rollout multipli costosi.
- OPSD fornisce una supervisione densa a livello di token da un singolo rollout.
- GUI-SD utilizza un bounding box target e una maschera morbida gaussiana per il contesto privilegiato.
- La distillazione guidata dall'entropia adatta i pesi dei token in base alla cifra.
- Il framework non rivela le coordinate esatte al teacher.
- L'approccio mira a migliorare le prestazioni su campioni difficili.
Entità
—