Dataset USV per la comprensione di video brevi generati dagli utenti
Il dataset appena lanciato, denominato USV (User-generated Short-form Video), mira a migliorare la comprensione dei video brevi a un livello semantico elevato. Include circa 224.000 video raccolti da piattaforme di contenuti generati dagli utenti tramite query di etichette, senza alcuna modifica o verifica manuale. Sono stati definiti due compiti principali: recupero video-testo e riconoscimento di argomenti. Per il compito di riconoscimento di argomenti, sono stati introdotti metodi di base come Multi-Modality Fusion Network (MMF-Net) e Video-Text Contrastive Learning (VTCL). Lo studio sottolinea che gli attuali approcci alla comprensione video si concentrano principalmente sul riconoscimento a livello di istanza, che non riesce a catturare intuizioni semantiche di alto livello.
Fatti principali
- Il dataset USV contiene circa 224.000 video da piattaforme UGC.
- Video raccolti tramite query di etichette senza verifica o taglio manuale.
- Due compiti: riconoscimento di argomenti e recupero video-testo.
- Metodi di base: MMF-Net e VTCL per il riconoscimento di argomenti.
- La comprensione video esistente si concentra sul riconoscimento a livello di istanza.
- L'obiettivo è la comprensione video semantica di alto livello.
- Dataset pubblicato su arXiv con ID 2605.20838.
- Tipo di annuncio: cross.
Entità
Istituzioni
- arXiv