ARTFEED — Contemporary Art Intelligence

Fondare la Coerenza Temporale nell'Apprendimento Video Oggetto-Centrico tramite Corrispondenza

other · 2026-05-12

Un nuovo framework chiamato Grounded Correspondence sostituisce i moduli di previsione temporale appresi nell'apprendimento video oggetto-centrico con un matching bipartito deterministico. L'approccio sfrutta caratteristiche discriminative per istanza da backbone di visione auto-supervisionati congelati per mantenere l'identità degli oggetti tra i fotogrammi. Inizializzando gli slot da regioni salienti e utilizzando il matching ungherese per l'identità fotogramma-fotogramma, il metodo richiede zero parametri apprendibili per la modellazione temporale. Raggiunge prestazioni competitive sui dataset MOVi-D, MOVi-E e YouTube-VIS. L'articolo è disponibile su arXiv con pagina del progetto all'indirizzo https://magent.

Fatti principali

  • Grounded Correspondence sostituisce la previsione temporale appresa con il matching bipartito
  • Utilizza backbone di visione auto-supervisionati congelati per caratteristiche discriminative per istanza
  • Gli slot vengono inizializzati da regioni salienti nelle caratteristiche del backbone
  • Il matching ungherese mantiene l'identità fotogramma-fotogramma
  • Zero parametri apprendibili per la modellazione temporale
  • Prestazioni competitive su MOVi-D, MOVi-E e YouTube-VIS
  • Articolo su arXiv: 2605.03650
  • Pagina del progetto: https://magent

Entità

Istituzioni

  • arXiv

Fonti