EngGPT2-16B-A3B confrontato con LLM italiani e internazionali

ai-technology · 2026-05-11

Ingegneria Informatica S.p.A. ha pubblicato una valutazione benchmark per il suo EngGPT2MoE-16B-A3B, un modello Mixture of Experts (MoE) con 16 miliardi di parametri, di cui 3 miliardi attivi. Il modello è stato testato su benchmark globali come ARC-Challenge, GSM8K, AIME24, AIME25, MMLU, HumanEval (HE) e il benchmark RULER con contesto di 32k. Ha eguagliato o superato le prestazioni di modelli italiani tra cui FastwebMIIA-7B, Minerva-7B, Velvet-14B e LLaMAntino-3-ANITA-8B nella maggior parte delle valutazioni, sebbene Velvet-14B lo abbia superato nel benchmark italiano ITALIC. Rispetto ad altri modelli MoE di dimensioni simili, EngGPT2MoE-16B-A3B ha mostrato risultati superiori rispetto a DeepSeek-MoE-16B-Chat.

Fatti principali

EngGPT2MoE-16B-A3B è un modello MoE con 16B parametri e 3B parametri attivi.
Confrontato con modelli italiani: FastwebMIIA-7B, Minerva-7B, Velvet-14B, LLaMAntino-3-ANITA-8B.
Ha ottenuto prestazioni uguali o migliori su ARC-Challenge, GSM8K, AIME24, AIME25, MMLU, HumanEval.
Ha raggiunto le migliori prestazioni sul benchmark RULER con contesto 32k.
Velvet-14B ha superato EngGPT2 nel benchmark italiano ITALIC.
Ha superato DeepSeek-MoE-16B-Chat nel confronto.
Rapporto pubblicato da ENGINEERING Ingegneria Informatica S.p.A.
Il modello è open-source e di dimensioni comparabili ad altri modelli MoE.

EngGPT2-16B-A3B confrontato con LLM italiani e internazionali

Fatti principali

Entità

Istituzioni

Fonti