Weighted Aggregation Improves Visual Place Recognition with ViTs

ai-technology · 2026-05-22

A new arXiv preprint proposes Weighted Aggregated Descriptor (WeiAD) for Visual Place Recognition (VPR) using Vision Transformers (ViTs). Current methods uniformly pool patch tokens into clusters, but WeiAD assigns weights to clusters during aggregation to produce more discriminative global descriptors. The method also addresses retrieval latency for edge devices through token pruning. The paper is available at arXiv:2605.20551.

Key facts

Visual Place Recognition (VPR) matches query images to reference images in large-scale databases.
State-of-the-art VPR uses Vision Transformers (ViTs) for patch-level features robust to viewpoint, illumination, and seasonal changes.
Existing aggregation methods uniformly pool patch tokens into learned clusters.
WeiAD assigns weights to clusters during aggregation for more discriminative global representations.
Retrieval latency is critical for large-scale deployments and edge devices.
The paper is from arXiv with ID 2605.20551.
The method involves token pruning for efficiency.
WeiAD produces compact global descriptors for retrieval.

Weighted Aggregation Improves Visual Place Recognition with ViTs

Key facts

Entities

Institutions

Sources