SiNFluD: Un dataset di riferimento per la classificazione del linguaggio figurato in Sindhi
I ricercatori hanno introdotto SiNFluD, un nuovo dataset di riferimento per la classificazione del linguaggio figurato in Sindhi. Il dataset è stato compilato da blog, social media e fonti letterarie, poi annotato da due madrelingua utilizzando Doccano, raggiungendo un accordo inter-annotatore di 0,81. I risultati di base sono stati stabiliti con validazione incrociata a 5 e 10 fold. Tra i modelli valutati—mBERT, XLM-RoBERTa, XLM-RoBERTa-XL e SetFit per il fine-tuning few-shot—XLM-RoBERTa-XL ha ottenuto le migliori prestazioni.
Fatti principali
- SiNFluD è un dataset di riferimento per la classificazione del linguaggio figurato in Sindhi.
- Il testo grezzo è stato raccolto da blog, piattaforme di social media e fonti letterarie.
- Due annotatori madrelingua hanno etichettato i dati utilizzando Doccano.
- L'accordo inter-annotatore ha raggiunto 0,81.
- I risultati di base hanno utilizzato validazione incrociata a 5 e 10 fold.
- I modelli valutati includono mBERT, XLM-RoBERTa, XLM-RoBERTa-XL e SetFit.
- XLM-RoBERTa-XL ha ottenuto le migliori prestazioni.
- SetFit è stato utilizzato per il fine-tuning few-shot dei sentence transformers.
Entità
—