ARTFEED — Contemporary Art Intelligence

SignVerse-2M: Due Milioni di Clip che Coprono Oltre 25 Lingue dei Segni per il Riconoscimento Basato su Pose

digital · 2026-05-06

I ricercatori hanno presentato SignVerse-2M, un dataset su larga scala contenente due milioni di videoclip in oltre 25 lingue dei segni. A differenza delle risorse esistenti che si basano sull'allineamento testo-video RGB, SignVerse-2M fornisce rappresentazioni di keypoint native per pose utilizzando DWPose, consentendo un'interfaccia diretta con i moderni modelli di riconoscimento e generazione guidati da pose. Il dataset affronta i limiti dei modelli basati su RGB, sensibili alle variazioni di sfondo e abbigliamento, e colma una lacuna nelle risorse per il riconoscimento e la traduzione della lingua dei segni in contesti aperti. Il lavoro è presentato in un preprint su arXiv (2605.01720).

Fatti principali

  • SignVerse-2M contiene due milioni di videoclip.
  • Il dataset copre oltre 25 lingue dei segni.
  • Utilizza rappresentazioni di keypoint DWPose.
  • È mirato al riconoscimento e alla traduzione in contesti aperti.
  • I modelli basati su RGB sono meno robusti in ambienti aperti.
  • Il dataset è nativo per pose, non basato su RGB.
  • Supporta la generazione video guidata da pose.
  • Il preprint è su arXiv (2605.01720).

Entità

Istituzioni

  • arXiv

Fonti