SignVerse-2M: Due Milioni di Clip che Coprono Oltre 25 Lingue dei Segni per il Riconoscimento Basato su Pose

digital · 2026-05-06

I ricercatori hanno presentato SignVerse-2M, un dataset su larga scala contenente due milioni di videoclip in oltre 25 lingue dei segni. A differenza delle risorse esistenti che si basano sull'allineamento testo-video RGB, SignVerse-2M fornisce rappresentazioni di keypoint native per pose utilizzando DWPose, consentendo un'interfaccia diretta con i moderni modelli di riconoscimento e generazione guidati da pose. Il dataset affronta i limiti dei modelli basati su RGB, sensibili alle variazioni di sfondo e abbigliamento, e colma una lacuna nelle risorse per il riconoscimento e la traduzione della lingua dei segni in contesti aperti. Il lavoro è presentato in un preprint su arXiv (2605.01720).

Fatti principali

SignVerse-2M contiene due milioni di videoclip.
Il dataset copre oltre 25 lingue dei segni.
Utilizza rappresentazioni di keypoint DWPose.
È mirato al riconoscimento e alla traduzione in contesti aperti.
I modelli basati su RGB sono meno robusti in ambienti aperti.
Il dataset è nativo per pose, non basato su RGB.
Supporta la generazione video guidata da pose.
Il preprint è su arXiv (2605.01720).

SignVerse-2M: Due Milioni di Clip che Coprono Oltre 25 Lingue dei Segni per il Riconoscimento Basato su Pose

Fatti principali

Entità

Istituzioni

Fonti