Fondare la Coerenza Temporale nell'Apprendimento Video Oggetto-Centrico tramite Corrispondenza

other · 2026-05-12

Un nuovo framework chiamato Grounded Correspondence sostituisce i moduli di previsione temporale appresi nell'apprendimento video oggetto-centrico con un matching bipartito deterministico. L'approccio sfrutta caratteristiche discriminative per istanza da backbone di visione auto-supervisionati congelati per mantenere l'identità degli oggetti tra i fotogrammi. Inizializzando gli slot da regioni salienti e utilizzando il matching ungherese per l'identità fotogramma-fotogramma, il metodo richiede zero parametri apprendibili per la modellazione temporale. Raggiunge prestazioni competitive sui dataset MOVi-D, MOVi-E e YouTube-VIS. L'articolo è disponibile su arXiv con pagina del progetto all'indirizzo https://magent.

Fatti principali

Grounded Correspondence sostituisce la previsione temporale appresa con il matching bipartito
Utilizza backbone di visione auto-supervisionati congelati per caratteristiche discriminative per istanza
Gli slot vengono inizializzati da regioni salienti nelle caratteristiche del backbone
Il matching ungherese mantiene l'identità fotogramma-fotogramma
Zero parametri apprendibili per la modellazione temporale
Prestazioni competitive su MOVi-D, MOVi-E e YouTube-VIS
Articolo su arXiv: 2605.03650
Pagina del progetto: https://magent

Fondare la Coerenza Temporale nell'Apprendimento Video Oggetto-Centrico tramite Corrispondenza

Fatti principali

Entità

Istituzioni

Fonti