L'aggregazione pesata migliora il riconoscimento visivo dei luoghi con i ViT
Un nuovo preprint su arXiv propone il Weighted Aggregated Descriptor (WeiAD) per il Visual Place Recognition (VPR) utilizzando i Vision Transformers (ViT). I metodi attuali raggruppano uniformemente i token delle patch in cluster, ma WeiAD assegna pesi ai cluster durante l'aggregazione per produrre descrittori globali più discriminativi. Il metodo affronta anche la latenza di recupero per i dispositivi edge attraverso il pruning dei token. Il paper è disponibile su arXiv:2605.20551.
Fatti principali
- Il Visual Place Recognition (VPR) abbina immagini di query a immagini di riferimento in database su larga scala.
- Il VPR all'avanguardia utilizza i Vision Transformers (ViT) per caratteristiche a livello di patch robuste a cambi di punto di vista, illuminazione e stagionali.
- I metodi di aggregazione esistenti raggruppano uniformemente i token delle patch in cluster appresi.
- WeiAD assegna pesi ai cluster durante l'aggregazione per rappresentazioni globali più discriminative.
- La latenza di recupero è critica per implementazioni su larga scala e dispositivi edge.
- Il paper proviene da arXiv con ID 2605.20551.
- Il metodo prevede il pruning dei token per l'efficienza.
- WeiAD produce descrittori globali compatti per il recupero.
Entità
Istituzioni
- arXiv