PFCVR: Modello Fine-Grained a Livello di Parti per il Recupero di Veicoli da Testo a Immagine

other · 2026-05-09

Un nuovo modello chiamato PFCVR, che sta per Part-level Fine-grained Cross-modal Vehicle Retrieval, è stato introdotto dai ricercatori per la re-identificazione di veicoli da testo a immagine. Questo modello innovativo crea immagini e testi accoppiati localmente a un livello granulare di parti e presenta token di query di parti apprendibili che integrano sia informazioni specifiche della parte che il contesto completo della frase prima di abbinarsi con le caratteristiche visive delle parti. Inoltre, un modulo di recupero maschera bidirezionale consente a ciascuna modalità di ricostruire i propri elementi mascherati con l'assistenza dell'altra, collegando efficacemente le corrispondenze locali per ottenere un allineamento globale delle caratteristiche. Inoltre, è stato sviluppato un dataset su larga scala. Questa ricerca è stata pubblicata su arXiv (2605.06012).

Fatti principali

PFCVR è un modello di recupero di veicoli cross-modale fine-grained a livello di parti.
Utilizza token di query di parti apprendibili per l'allineamento.
Un modulo di recupero maschera bidirezionale collega le caratteristiche locali e globali.
È stato costruito un nuovo dataset su larga scala.
L'articolo è su arXiv con ID 2605.06012.
La re-identificazione dei veicoli si estende a query basate su testo.
Il modello gestisce immagini da telecamere non sovrapposte.
Consente il recupero da descrizioni di testimoni.

PFCVR: Modello Fine-Grained a Livello di Parti per il Recupero di Veicoli da Testo a Immagine

Fatti principali

Entità

Istituzioni

Fonti