LocateAnything: Il Decoding a Scatole Parallele Accelera e Migliora la Precisione del Grounding VLM

ai-technology · 2026-05-27

Un nuovo framework chiamato LocateAnything è stato presentato dai ricercatori, integrando grounding generativo e rilevamento attraverso il Parallel Box Decoding (PBD). Questo metodo decodifica bounding box e punti simultaneamente come unità atomiche, mantenendo la coerenza geometrica all'interno delle scatole e consentendo un'elaborazione parallela significativa. Di conseguenza, migliora sia la velocità di decodifica che la precisione di localizzazione, superando le tecniche convenzionali di generazione di token di coordinate che convertono scatole 2D in diversi token 1D. Inoltre, il team ha creato un motore dati scalabile e assemblato LocateAnything-Data, un dataset completo con oltre 138 milioni di campioni di addestramento. I dettagli di questa ricerca sono disponibili nell'articolo arXiv 2605.27365v1.

Fatti principali

LocateAnything utilizza il Parallel Box Decoding (PBD) per decodificare elementi geometrici come unità atomiche in un unico passaggio.
Il PBD preserva la coerenza geometrica intra-box e sblocca un sostanziale parallelismo.
Il framework migliora sia la produttività di decodifica che l'accuratezza di localizzazione.
È stato sviluppato un motore dati scalabile per curare LocateAnything-Data.
LocateAnything-Data contiene oltre 138 milioni di campioni di addestramento.
L'articolo è disponibile su arXiv con ID 2605.27365v1.
I VLM tradizionali serializzano scatole 2D in più token 1D per la decodifica.
La decodifica token per token non corrisponde alla struttura accoppiata della geometria della scatola.

LocateAnything: Il Decoding a Scatole Parallele Accelera e Migliora la Precisione del Grounding VLM

Fatti principali

Entità

Istituzioni

Fonti