Fondare la Coerenza Temporale nell'Apprendimento Video Oggetto-Centrico tramite Corrispondenza
Un nuovo framework chiamato Grounded Correspondence sostituisce i moduli di previsione temporale appresi nell'apprendimento video oggetto-centrico con un matching bipartito deterministico. L'approccio sfrutta caratteristiche discriminative per istanza da backbone di visione auto-supervisionati congelati per mantenere l'identità degli oggetti tra i fotogrammi. Inizializzando gli slot da regioni salienti e utilizzando il matching ungherese per l'identità fotogramma-fotogramma, il metodo richiede zero parametri apprendibili per la modellazione temporale. Raggiunge prestazioni competitive sui dataset MOVi-D, MOVi-E e YouTube-VIS. L'articolo è disponibile su arXiv con pagina del progetto all'indirizzo https://magent.
Fatti principali
- Grounded Correspondence sostituisce la previsione temporale appresa con il matching bipartito
- Utilizza backbone di visione auto-supervisionati congelati per caratteristiche discriminative per istanza
- Gli slot vengono inizializzati da regioni salienti nelle caratteristiche del backbone
- Il matching ungherese mantiene l'identità fotogramma-fotogramma
- Zero parametri apprendibili per la modellazione temporale
- Prestazioni competitive su MOVi-D, MOVi-E e YouTube-VIS
- Articolo su arXiv: 2605.03650
- Pagina del progetto: https://magent
Entità
Istituzioni
- arXiv