ARTFEED — Contemporary Art Intelligence

SiNFluD: Un dataset di riferimento per la classificazione del linguaggio figurato in Sindhi

other · 2026-05-06

I ricercatori hanno introdotto SiNFluD, un nuovo dataset di riferimento per la classificazione del linguaggio figurato in Sindhi. Il dataset è stato compilato da blog, social media e fonti letterarie, poi annotato da due madrelingua utilizzando Doccano, raggiungendo un accordo inter-annotatore di 0,81. I risultati di base sono stati stabiliti con validazione incrociata a 5 e 10 fold. Tra i modelli valutati—mBERT, XLM-RoBERTa, XLM-RoBERTa-XL e SetFit per il fine-tuning few-shot—XLM-RoBERTa-XL ha ottenuto le migliori prestazioni.

Fatti principali

  • SiNFluD è un dataset di riferimento per la classificazione del linguaggio figurato in Sindhi.
  • Il testo grezzo è stato raccolto da blog, piattaforme di social media e fonti letterarie.
  • Due annotatori madrelingua hanno etichettato i dati utilizzando Doccano.
  • L'accordo inter-annotatore ha raggiunto 0,81.
  • I risultati di base hanno utilizzato validazione incrociata a 5 e 10 fold.
  • I modelli valutati includono mBERT, XLM-RoBERTa, XLM-RoBERTa-XL e SetFit.
  • XLM-RoBERTa-XL ha ottenuto le migliori prestazioni.
  • SetFit è stato utilizzato per il fine-tuning few-shot dei sentence transformers.

Entità

Fonti