SignVerse-2M: Due Milioni di Clip che Coprono Oltre 25 Lingue dei Segni per il Riconoscimento Basato su Pose
I ricercatori hanno presentato SignVerse-2M, un dataset su larga scala contenente due milioni di videoclip in oltre 25 lingue dei segni. A differenza delle risorse esistenti che si basano sull'allineamento testo-video RGB, SignVerse-2M fornisce rappresentazioni di keypoint native per pose utilizzando DWPose, consentendo un'interfaccia diretta con i moderni modelli di riconoscimento e generazione guidati da pose. Il dataset affronta i limiti dei modelli basati su RGB, sensibili alle variazioni di sfondo e abbigliamento, e colma una lacuna nelle risorse per il riconoscimento e la traduzione della lingua dei segni in contesti aperti. Il lavoro è presentato in un preprint su arXiv (2605.01720).
Fatti principali
- SignVerse-2M contiene due milioni di videoclip.
- Il dataset copre oltre 25 lingue dei segni.
- Utilizza rappresentazioni di keypoint DWPose.
- È mirato al riconoscimento e alla traduzione in contesti aperti.
- I modelli basati su RGB sono meno robusti in ambienti aperti.
- Il dataset è nativo per pose, non basato su RGB.
- Supporta la generazione video guidata da pose.
- Il preprint è su arXiv (2605.01720).
Entità
Istituzioni
- arXiv