QIMMA Arabic LLM Leaderboard Introduce una Valutazione Basata sulla Qualità per i Modelli Linguistici Arabi
Il nuovo leaderboard QIMMA قِمّة per i modelli linguistici arabi (LLM) verifica rigorosamente i benchmark prima di valutare i modelli, garantendo che i punteggi rappresentino accuratamente la reale competenza nella lingua araba. Integra 109 sottoinsiemi provenienti da 14 benchmark diversi in una suite di valutazione completa che comprende oltre 52.000 campioni in sette domini, con il 99% dei contenuti in arabo nativo. Un processo di validazione della qualità approfondito ha rivelato problemi di qualità costanti nei benchmark arabi comunemente utilizzati. Questo processo impiega valutazioni automatizzate multi-modello utilizzando Qwen3-235B-A22B-Instruct e DeepSeek-V3-671B, seguite da valutazioni di parlanti nativi arabi. I problemi identificati includono imprecisioni di traduzione, disallineamenti culturali, annotazioni incoerenti ed errori di codifica. Ad aprile 2026, modelli focalizzati sull'arabo come Jais-2-70B-Chat eccellono in compiti culturali e linguistici, mentre modelli multilingue come Qwen3.5-397B performano bene nella programmazione. Il framework di valutazione incorpora LightEval, EvalPlus e FannOrFlop, utilizzando modelli di prompt arabi standardizzati. È degno di nota che modelli di medie dimensioni possano superare quelli più grandi in aree specifiche, affrontando la frammentazione nella valutazione NLP araba per oltre 400 milioni di parlanti con vari dialetti.
Fatti principali
- QIMMA valida i benchmark prima di valutare i modelli linguistici arabi (LLM)
- Consolida 109 sottoinsiemi da 14 benchmark in oltre 52.000 campioni
- Utilizza valutazioni multi-modello con Qwen3-235B-A22B-Instruct e DeepSeek-V3-671B
- Include annotazioni umane da parlanti nativi arabi
- Primo leaderboard arabo con valutazione del codice (HumanEval+, MBPP+)
- I risultati ad aprile 2026 mostrano che Jais-2-70B-Chat guida i compiti culturali
- Qwen3.5-397B guida i domini di programmazione
- Affronta la valutazione per oltre 400 milioni di parlanti arabi attraverso dialetti diversi
Entità
Istituzioni
- 3LM
- Falcon Perception