SiNFluD: Un dataset di riferimento per la classificazione del linguaggio figurato in Sindhi

other · 2026-05-06

I ricercatori hanno introdotto SiNFluD, un nuovo dataset di riferimento per la classificazione del linguaggio figurato in Sindhi. Il dataset è stato compilato da blog, social media e fonti letterarie, poi annotato da due madrelingua utilizzando Doccano, raggiungendo un accordo inter-annotatore di 0,81. I risultati di base sono stati stabiliti con validazione incrociata a 5 e 10 fold. Tra i modelli valutati—mBERT, XLM-RoBERTa, XLM-RoBERTa-XL e SetFit per il fine-tuning few-shot—XLM-RoBERTa-XL ha ottenuto le migliori prestazioni.

Fatti principali

SiNFluD è un dataset di riferimento per la classificazione del linguaggio figurato in Sindhi.
Il testo grezzo è stato raccolto da blog, piattaforme di social media e fonti letterarie.
Due annotatori madrelingua hanno etichettato i dati utilizzando Doccano.
L'accordo inter-annotatore ha raggiunto 0,81.
I risultati di base hanno utilizzato validazione incrociata a 5 e 10 fold.
I modelli valutati includono mBERT, XLM-RoBERTa, XLM-RoBERTa-XL e SetFit.
XLM-RoBERTa-XL ha ottenuto le migliori prestazioni.
SetFit è stato utilizzato per il fine-tuning few-shot dei sentence transformers.

Entità

—

Fonti

arXiv cs.AI — 2026-05-05