ClipTBP: Previsione dei Confini Temporali a Coppie di Clip per il Recupero di Momenti Video

other · 2026-05-01

È stato proposto un nuovo framework chiamato ClipTBP (Clip-Pair Temporal Boundary Prediction) per il recupero di momenti video, ovvero il compito di localizzare segmenti video specifici che corrispondono a una query testuale. I modelli esistenti hanno difficoltà con segmenti visivamente simili e ignorano le relazioni tra più segmenti di risposta per una singola query. ClipTBP introduce l'allineamento a livello di clip e l'apprendimento sensibile ai confini per affrontare questi problemi. Il metodo calcola la similarità considerando coppie di clip anziché singoli snippet, migliorando l'esclusione di segmenti irrilevanti. Il framework è descritto nel documento arXiv 2604.27591.

Fatti principali

ClipTBP è un framework di previsione dei confini temporali a coppie di clip.
Utilizza l'apprendimento sensibile ai confini per il recupero di momenti video.
I modelli esistenti calcolano la similarità a livello di snippet e ignorano le relazioni tra più segmenti di risposta.
ClipTBP introduce l'allineamento a livello di clip.
Il metodo affronta i problemi con segmenti visivamente simili nel contesto circostante.
Il documento è disponibile su arXiv con ID 2604.27591.
Il tipo di annuncio è cross.
Il recupero di momenti video abbina segmenti video a query testuali.

ClipTBP: Previsione dei Confini Temporali a Coppie di Clip per il Recupero di Momenti Video

Fatti principali

Entità

Istituzioni

Fonti