ARTFEED — Contemporary Art Intelligence

ClipTBP: Previsione dei Confini Temporali a Coppie di Clip per il Recupero di Momenti Video

other · 2026-05-01

È stato proposto un nuovo framework chiamato ClipTBP (Clip-Pair Temporal Boundary Prediction) per il recupero di momenti video, ovvero il compito di localizzare segmenti video specifici che corrispondono a una query testuale. I modelli esistenti hanno difficoltà con segmenti visivamente simili e ignorano le relazioni tra più segmenti di risposta per una singola query. ClipTBP introduce l'allineamento a livello di clip e l'apprendimento sensibile ai confini per affrontare questi problemi. Il metodo calcola la similarità considerando coppie di clip anziché singoli snippet, migliorando l'esclusione di segmenti irrilevanti. Il framework è descritto nel documento arXiv 2604.27591.

Fatti principali

  • ClipTBP è un framework di previsione dei confini temporali a coppie di clip.
  • Utilizza l'apprendimento sensibile ai confini per il recupero di momenti video.
  • I modelli esistenti calcolano la similarità a livello di snippet e ignorano le relazioni tra più segmenti di risposta.
  • ClipTBP introduce l'allineamento a livello di clip.
  • Il metodo affronta i problemi con segmenti visivamente simili nel contesto circostante.
  • Il documento è disponibile su arXiv con ID 2604.27591.
  • Il tipo di annuncio è cross.
  • Il recupero di momenti video abbina segmenti video a query testuali.

Entità

Istituzioni

  • arXiv

Fonti