Grounding Video Debolemente Supervisionato come un Gioco

other · 2026-05-27

I ricercatori propongono un approccio basato sulla teoria dei giochi per il grounding temporale video debolmente supervisionato, affrontando le limitazioni dei metodi esistenti. I framework attuali si basano sulla selezione di proposte di momenti con apprendimento contrastivo e ricostruzione, ma trascurano l'apprendimento cross-modale a grana grossa e le complesse dipendenze tra le proposte. Il nuovo metodo modella l'allineamento fine-grained tra fotogrammi video e parole della query ed elimina la necessità di proposte predefinite. Questo è il primo tentativo di inquadrare il compito come un gioco, migliorando l'accuratezza del grounding senza la costosa generazione di proposte.

Fatti principali

Compito: grounding temporale video debolmente supervisionato
I metodi esistenti usano la selezione di proposte di momenti con apprendimento contrastivo e ricostruzione
Due problemi identificati: apprendimento cross-modale a grana grossa e proposte di momenti complesse
Metodo proposto: prospettiva di gioco per la prima volta
Obiettivo: catturare la coerenza dettagliata tra fotogrammi video e parole della query
Elimina la dipendenza da proposte di momenti predefinite
Fonte: arXiv preprint 2605.26441
Pubblicato su arXiv

Grounding Video Debolemente Supervisionato come un Gioco

Fatti principali

Entità

Istituzioni

Fonti