Grounding Video Debolemente Supervisionato come un Gioco
I ricercatori propongono un approccio basato sulla teoria dei giochi per il grounding temporale video debolmente supervisionato, affrontando le limitazioni dei metodi esistenti. I framework attuali si basano sulla selezione di proposte di momenti con apprendimento contrastivo e ricostruzione, ma trascurano l'apprendimento cross-modale a grana grossa e le complesse dipendenze tra le proposte. Il nuovo metodo modella l'allineamento fine-grained tra fotogrammi video e parole della query ed elimina la necessità di proposte predefinite. Questo è il primo tentativo di inquadrare il compito come un gioco, migliorando l'accuratezza del grounding senza la costosa generazione di proposte.
Fatti principali
- Compito: grounding temporale video debolmente supervisionato
- I metodi esistenti usano la selezione di proposte di momenti con apprendimento contrastivo e ricostruzione
- Due problemi identificati: apprendimento cross-modale a grana grossa e proposte di momenti complesse
- Metodo proposto: prospettiva di gioco per la prima volta
- Obiettivo: catturare la coerenza dettagliata tra fotogrammi video e parole della query
- Elimina la dipendenza da proposte di momenti predefinite
- Fonte: arXiv preprint 2605.26441
- Pubblicato su arXiv
Entità
Istituzioni
- arXiv