Nuovo benchmark per la segmentazione semantica nell'arabo dialettale
È stato lanciato un nuovo standard multigenere per la segmentazione semantica nell'arabo conversazionale, affrontando le difficoltà poste dai dialetti parlati a basse risorse. Questo benchmark comprende oltre 1.000 campioni che includono trascrizioni di conversazioni telefoniche informali, podcast con code-switching, notizie trasmesse e dialoghi espressivi tratti da opere letterarie, tutti annotati da madrelingua arabi. Mentre gli attuali modelli di segmentazione eccellono nei formati di notizie in arabo standard moderno (MSA), la loro efficacia diminuisce considerevolmente con il parlato dialettale trascritto. Lo studio propone un modello di segmentazione incentrato sul miglioramento della coerenza semantica locale per aumentare le prestazioni in questi dialetti.
Fatti principali
- Nuovo benchmark multigenere per la segmentazione semantica nell'arabo conversazionale
- Oltre 1000 campioni che coprono quattro generi: conversazioni telefoniche, podcast, notizie trasmesse, romanzi
- Annotato e validato da annotatori arabi madrelingua
- I modelli esistenti degradano sul parlato dialettale trascritto rispetto alle notizie in MSA
- Il modello proposto mira alla coerenza semantica locale
Entità
Istituzioni
- arXiv