ARTFEED — Contemporary Art Intelligence

Grounding Video Debolemente Supervisionato come un Gioco

other · 2026-05-27

I ricercatori propongono un approccio basato sulla teoria dei giochi per il grounding temporale video debolmente supervisionato, affrontando le limitazioni dei metodi esistenti. I framework attuali si basano sulla selezione di proposte di momenti con apprendimento contrastivo e ricostruzione, ma trascurano l'apprendimento cross-modale a grana grossa e le complesse dipendenze tra le proposte. Il nuovo metodo modella l'allineamento fine-grained tra fotogrammi video e parole della query ed elimina la necessità di proposte predefinite. Questo è il primo tentativo di inquadrare il compito come un gioco, migliorando l'accuratezza del grounding senza la costosa generazione di proposte.

Fatti principali

  • Compito: grounding temporale video debolmente supervisionato
  • I metodi esistenti usano la selezione di proposte di momenti con apprendimento contrastivo e ricostruzione
  • Due problemi identificati: apprendimento cross-modale a grana grossa e proposte di momenti complesse
  • Metodo proposto: prospettiva di gioco per la prima volta
  • Obiettivo: catturare la coerenza dettagliata tra fotogrammi video e parole della query
  • Elimina la dipendenza da proposte di momenti predefinite
  • Fonte: arXiv preprint 2605.26441
  • Pubblicato su arXiv

Entità

Istituzioni

  • arXiv

Fonti