ClipTBP: Previsione dei Confini Temporali a Coppie di Clip per il Recupero di Momenti Video
È stato proposto un nuovo framework chiamato ClipTBP (Clip-Pair Temporal Boundary Prediction) per il recupero di momenti video, ovvero il compito di localizzare segmenti video specifici che corrispondono a una query testuale. I modelli esistenti hanno difficoltà con segmenti visivamente simili e ignorano le relazioni tra più segmenti di risposta per una singola query. ClipTBP introduce l'allineamento a livello di clip e l'apprendimento sensibile ai confini per affrontare questi problemi. Il metodo calcola la similarità considerando coppie di clip anziché singoli snippet, migliorando l'esclusione di segmenti irrilevanti. Il framework è descritto nel documento arXiv 2604.27591.
Fatti principali
- ClipTBP è un framework di previsione dei confini temporali a coppie di clip.
- Utilizza l'apprendimento sensibile ai confini per il recupero di momenti video.
- I modelli esistenti calcolano la similarità a livello di snippet e ignorano le relazioni tra più segmenti di risposta.
- ClipTBP introduce l'allineamento a livello di clip.
- Il metodo affronta i problemi con segmenti visivamente simili nel contesto circostante.
- Il documento è disponibile su arXiv con ID 2604.27591.
- Il tipo di annuncio è cross.
- Il recupero di momenti video abbina segmenti video a query testuali.
Entità
Istituzioni
- arXiv