ArabCulture-Dialogue: Benchmarking dei LLM sul ragionamento culturale arabo
I ricercatori hanno introdotto ArabCulture-Dialogue, un dataset conversazionale progettato per valutare il ragionamento culturale nei modelli linguistici di grandi dimensioni (LLM) attraverso i dialetti arabi e l'arabo standard moderno (MSA). Il dataset copre 13 paesi di lingua araba, include sia MSA che il dialetto di ciascun paese, e abbraccia 12 argomenti della vita quotidiana con 54 sottotopici dettagliati. Sono stati sviluppati tre compiti di benchmarking: ragionamento culturale a scelta multipla, traduzione automatica tra MSA e dialetti, e generazione orientata al dialetto. Gli esperimenti rivelano un persistente divario di prestazioni tra MSA e dialetti arabi, con modelli che ottengono risultati peggiori in tutti e tre i compiti nelle configurazioni dialettali rispetto a MSA. Il lavoro colma una lacuna significativa nella valutazione delle sfumature culturali negli LLM, poiché la maggior parte dei benchmark arabi si basa su brevi frammenti di testo in MSA e trascura i contesti conversazionali.
Fatti principali
- ArabCulture-Dialogue è un dataset conversazionale per il ragionamento culturale in arabo.
- Il dataset copre 13 paesi di lingua araba.
- Include sia l'arabo standard moderno che il dialetto di ciascun paese.
- Abbraccia 12 argomenti della vita quotidiana e 54 sottotopici dettagliati.
- Tre compiti di benchmarking: ragionamento culturale a scelta multipla, traduzione automatica, generazione orientata al dialetto.
- Gli esperimenti mostrano che gli LLM ottengono risultati peggiori nei compiti dialettali rispetto a quelli in MSA.
- Colma la lacuna nella valutazione delle sfumature culturali negli LLM utilizzando dati conversazionali.
- La maggior parte dei benchmark arabi si concentra su brevi frammenti di testo in MSA.
Entità
Istituzioni
- arXiv
Luoghi
- Arabic-speaking countries