Studio di Ricerca Introduce la Coerenza dello Zoom come Metrica di Confidenza Gratuita per le Pipeline di Grounding Visivo
Un recente studio di ricerca presenta la "coerenza dello zoom" come indicatore innovativo di confidenza per i processi di grounding visivo multi-step. Questa metrica geometrica quantifica la distanza tra la previsione del secondo step del modello e il centro del ritaglio all'interno di un framework di coordinate condiviso. A differenza delle metriche di confidenza convenzionali come le log-probabilità o l'incertezza a livello di token, la coerenza dello zoom opera senza necessità di calibrazione ed è applicabile a varie architetture visione-linguaggio. Lo studio rivela una correlazione tra coerenza dello zoom e accuratezza delle previsioni in due VLMs: KV-Ground-8B e Qwen3.5-27B. Per KV-Ground-8B, la correlazione produce AUC = 0,60 con Spearman rho = -0,14 e p < 10^{-6}, mentre per Qwen3.5-27B, Spearman rho = -0,11 con p = 0,0003. I risultati indicano che questa metrica può stimare efficacemente l'errore spaziale dello step-1 in condizioni ideali. Sebbene le pipeline multi-step di zoom-in siano frequentemente utilizzate per il grounding GUI, le previsioni intermedie vengono spesso trascurate dopo il rimappaggio delle coordinate. Questo articolo evidenzia che questi output intermedi possiedono dati di confidenza preziosi che possono essere utilizzati senza incorrere in spese computazionali aggiuntive. La correlazione rimane stabile attraverso vari modelli, tipi di applicazione e scenari operativi, nonostante la sua modesta entità. Questa ricerca è stata pubblicata su arXiv con l'identificatore 2604.15376v1 ed è stata presentata come abstract cross-type.
Fatti principali
- La coerenza dello zoom misura la distanza tra la previsione dello step-2 e il centro del ritaglio
- Funziona attraverso VLMs architetturalmente diversi senza necessità di calibrazione
- Correlazione dimostrata con KV-Ground-8B (AUC = 0,60, Spearman rho = -0,14)
- Correlazione dimostrata con Qwen3.5-27B (Spearman rho = -0,11, p = 0,0003)
- Dimostrata come stimatore lineare dell'errore spaziale dello step-1 in condizioni idealizzate
- Pipeline multi-step di zoom-in ampiamente utilizzate per il grounding GUI
- Le previsioni intermedie vengono tipicamente scartate dopo il rimappaggio delle coordinate
- Ricerca pubblicata su arXiv con identificatore 2604.15376v1
Entità
Istituzioni
- arXiv