ARTFEED — Contemporary Art Intelligence

Dataset USV per la comprensione di video brevi generati dagli utenti

digital · 2026-05-22

Il dataset appena lanciato, denominato USV (User-generated Short-form Video), mira a migliorare la comprensione dei video brevi a un livello semantico elevato. Include circa 224.000 video raccolti da piattaforme di contenuti generati dagli utenti tramite query di etichette, senza alcuna modifica o verifica manuale. Sono stati definiti due compiti principali: recupero video-testo e riconoscimento di argomenti. Per il compito di riconoscimento di argomenti, sono stati introdotti metodi di base come Multi-Modality Fusion Network (MMF-Net) e Video-Text Contrastive Learning (VTCL). Lo studio sottolinea che gli attuali approcci alla comprensione video si concentrano principalmente sul riconoscimento a livello di istanza, che non riesce a catturare intuizioni semantiche di alto livello.

Fatti principali

  • Il dataset USV contiene circa 224.000 video da piattaforme UGC.
  • Video raccolti tramite query di etichette senza verifica o taglio manuale.
  • Due compiti: riconoscimento di argomenti e recupero video-testo.
  • Metodi di base: MMF-Net e VTCL per il riconoscimento di argomenti.
  • La comprensione video esistente si concentra sul riconoscimento a livello di istanza.
  • L'obiettivo è la comprensione video semantica di alto livello.
  • Dataset pubblicato su arXiv con ID 2605.20838.
  • Tipo di annuncio: cross.

Entità

Istituzioni

  • arXiv

Fonti