Dataset USV per la comprensione di video brevi generati dagli utenti

digital · 2026-05-22

Il dataset appena lanciato, denominato USV (User-generated Short-form Video), mira a migliorare la comprensione dei video brevi a un livello semantico elevato. Include circa 224.000 video raccolti da piattaforme di contenuti generati dagli utenti tramite query di etichette, senza alcuna modifica o verifica manuale. Sono stati definiti due compiti principali: recupero video-testo e riconoscimento di argomenti. Per il compito di riconoscimento di argomenti, sono stati introdotti metodi di base come Multi-Modality Fusion Network (MMF-Net) e Video-Text Contrastive Learning (VTCL). Lo studio sottolinea che gli attuali approcci alla comprensione video si concentrano principalmente sul riconoscimento a livello di istanza, che non riesce a catturare intuizioni semantiche di alto livello.

Fatti principali

Il dataset USV contiene circa 224.000 video da piattaforme UGC.
Video raccolti tramite query di etichette senza verifica o taglio manuale.
Due compiti: riconoscimento di argomenti e recupero video-testo.
Metodi di base: MMF-Net e VTCL per il riconoscimento di argomenti.
La comprensione video esistente si concentra sul riconoscimento a livello di istanza.
L'obiettivo è la comprensione video semantica di alto livello.
Dataset pubblicato su arXiv con ID 2605.20838.
Tipo di annuncio: cross.

Dataset USV per la comprensione di video brevi generati dagli utenti

Fatti principali

Entità

Istituzioni

Fonti