Il Metodo VPSG Corregge il Bias di Predizione delle Coordinate nei MLLM

ai-technology · 2026-04-30

Uno studio ha rivelato che gli input ad alta risoluzione influenzano negativamente le codifiche posizionali visive (VPE) nei modelli linguistici multimodali di grandi dimensioni (MLLM), causando bias prevedibili nelle previsioni delle coordinate anziché variazioni casuali. Per affrontare questo problema, i ricercatori propongono Vision-PE Shuffle Guidance (VPSG), una tecnica di correzione che opera durante l'inferenza senza richiedere addestramento. VPSG funziona mescolando le VPE per isolare le tendenze non condizionate dalla posizione e utilizza questa evidenza negativa per migliorare la decodifica delle cifre attraverso una semplice macchina a stati finiti. Testato sul benchmark ScreenSpot-Pro, VPSG corregge con successo la deriva delle coordinate e mostra miglioramenti significativi nell'accuratezza della localizzazione su diverse dimensioni del modello.

Fatti principali

I modelli linguistici multimodali di grandi dimensioni (MLLM) mostrano codifiche posizionali visive (VPE) degradate con input ad alta risoluzione.
I fallimenti di codifica innescano bias prevedibili e direzionali, non rumore casuale.
I modelli ricorrono a priori spaziali interni quando i segnali di ancoraggio sono deboli.
Vision-PE Shuffle Guidance (VPSG) è un metodo di correzione durante l'inferenza senza addestramento.
VPSG mescola le VPE per isolare le tendenze non condizionate dalla posizione.
Una macchina a stati finiti leggera guida la decodifica delle cifre utilizzando evidenze negative.
La valutazione sul benchmark ScreenSpot-Pro mostra miglioramenti consistenti nell'accuratezza della localizzazione.
Il metodo funziona su varie scale di modello.

Entità

—

Fonti

arXiv cs.AI — 2026-04-29