EngGPT2-16B-A3B confrontato con LLM italiani e internazionali
Ingegneria Informatica S.p.A. ha pubblicato una valutazione benchmark per il suo EngGPT2MoE-16B-A3B, un modello Mixture of Experts (MoE) con 16 miliardi di parametri, di cui 3 miliardi attivi. Il modello è stato testato su benchmark globali come ARC-Challenge, GSM8K, AIME24, AIME25, MMLU, HumanEval (HE) e il benchmark RULER con contesto di 32k. Ha eguagliato o superato le prestazioni di modelli italiani tra cui FastwebMIIA-7B, Minerva-7B, Velvet-14B e LLaMAntino-3-ANITA-8B nella maggior parte delle valutazioni, sebbene Velvet-14B lo abbia superato nel benchmark italiano ITALIC. Rispetto ad altri modelli MoE di dimensioni simili, EngGPT2MoE-16B-A3B ha mostrato risultati superiori rispetto a DeepSeek-MoE-16B-Chat.
Fatti principali
- EngGPT2MoE-16B-A3B è un modello MoE con 16B parametri e 3B parametri attivi.
- Confrontato con modelli italiani: FastwebMIIA-7B, Minerva-7B, Velvet-14B, LLaMAntino-3-ANITA-8B.
- Ha ottenuto prestazioni uguali o migliori su ARC-Challenge, GSM8K, AIME24, AIME25, MMLU, HumanEval.
- Ha raggiunto le migliori prestazioni sul benchmark RULER con contesto 32k.
- Velvet-14B ha superato EngGPT2 nel benchmark italiano ITALIC.
- Ha superato DeepSeek-MoE-16B-Chat nel confronto.
- Rapporto pubblicato da ENGINEERING Ingegneria Informatica S.p.A.
- Il modello è open-source e di dimensioni comparabili ad altri modelli MoE.
Entità
Istituzioni
- ENGINEERING Ingegneria Informatica S.p.A.