ARTFEED — Contemporary Art Intelligence

GUI-SD: Primo Framework di Auto-Distillazione On-Policy per il Grounding di GUI

ai-technology · 2026-05-04

I ricercatori hanno introdotto GUI-SD, il primo framework di auto-distillazione on-policy (OPSD) progettato per il grounding di interfacce utente grafiche (GUI). Questo framework traduce comandi in linguaggio naturale nelle coordinate visive di elementi specifici. A differenza delle tecniche di apprendimento per rinforzo come GRPO, che richiedono costosi rollout multipli e incontrano segnali sparsi con campioni difficili, OPSD fornisce una supervisione densa a livello di token da un singolo rollout. GUI-SD crea un contesto privilegiato visivamente potenziato per il teacher utilizzando un bounding box target e una maschera morbida gaussiana, fornendo così una guida preziosa senza rivelare le coordinate esatte. Inoltre, incorpora la distillazione guidata dall'entropia per regolare dinamicamente i pesi dei token in base alle cifre, mirando a migliorare le prestazioni e l'efficienza per agenti GUI autonomi.

Fatti principali

  • GUI-SD è il primo framework OPSD per il grounding di GUI.
  • Il grounding di GUI mappa istruzioni in linguaggio naturale alle coordinate visive degli elementi target.
  • I metodi di apprendimento per rinforzo come GRPO richiedono rollout multipli costosi.
  • OPSD fornisce una supervisione densa a livello di token da un singolo rollout.
  • GUI-SD utilizza un bounding box target e una maschera morbida gaussiana per il contesto privilegiato.
  • La distillazione guidata dall'entropia adatta i pesi dei token in base alla cifra.
  • Il framework non rivela le coordinate esatte al teacher.
  • L'approccio mira a migliorare le prestazioni su campioni difficili.

Entità

Fonti