ArabCulture-Dialogue: Benchmarking dei LLM sul ragionamento culturale arabo

ai-technology · 2026-05-04

I ricercatori hanno introdotto ArabCulture-Dialogue, un dataset conversazionale progettato per valutare il ragionamento culturale nei modelli linguistici di grandi dimensioni (LLM) attraverso i dialetti arabi e l'arabo standard moderno (MSA). Il dataset copre 13 paesi di lingua araba, include sia MSA che il dialetto di ciascun paese, e abbraccia 12 argomenti della vita quotidiana con 54 sottotopici dettagliati. Sono stati sviluppati tre compiti di benchmarking: ragionamento culturale a scelta multipla, traduzione automatica tra MSA e dialetti, e generazione orientata al dialetto. Gli esperimenti rivelano un persistente divario di prestazioni tra MSA e dialetti arabi, con modelli che ottengono risultati peggiori in tutti e tre i compiti nelle configurazioni dialettali rispetto a MSA. Il lavoro colma una lacuna significativa nella valutazione delle sfumature culturali negli LLM, poiché la maggior parte dei benchmark arabi si basa su brevi frammenti di testo in MSA e trascura i contesti conversazionali.

Fatti principali

ArabCulture-Dialogue è un dataset conversazionale per il ragionamento culturale in arabo.
Il dataset copre 13 paesi di lingua araba.
Include sia l'arabo standard moderno che il dialetto di ciascun paese.
Abbraccia 12 argomenti della vita quotidiana e 54 sottotopici dettagliati.
Tre compiti di benchmarking: ragionamento culturale a scelta multipla, traduzione automatica, generazione orientata al dialetto.
Gli esperimenti mostrano che gli LLM ottengono risultati peggiori nei compiti dialettali rispetto a quelli in MSA.
Colma la lacuna nella valutazione delle sfumature culturali negli LLM utilizzando dati conversazionali.
La maggior parte dei benchmark arabi si concentra su brevi frammenti di testo in MSA.

Entità

Istituzioni

arXiv

Luoghi

Arabic-speaking countries

Fonti

arXiv cs.AI — 2026-05-04