JetBrains rilascia Mellum2, un modello MoE da 12B per testo e codice a bassa latenza

ai-technology · 2026-06-01

JetBrains ha presentato Mellum2, un modello Mixture-of-Experts (MoE) con 12 miliardi di parametri, sviluppato da zero per linguaggio naturale e codice. Questo modello attiva solo 2,5 miliardi di parametri per token, facilitando un'inferenza efficiente e a bassa latenza. È rilasciato sotto licenza Apache 2.0 e può essere trovato su Hugging Face. Mellum2 è pensato per attività sensibili alla latenza come routing, generazione aumentata da recupero (RAG), riassunto, sub-agenti e implementazioni private, vantando un'inferenza oltre 2 volte più veloce rispetto a modelli aperti di dimensioni simili. Concentrato esclusivamente su testo e codice, evita attività multimodali per mantenere l'efficienza nell'ingegneria del software. Un rapporto tecnico completo sulla sua architettura, addestramento, benchmark e valutazione è disponibile su arXiv.

Fatti principali

Mellum2 è un modello Mixture-of-Experts da 12 miliardi di parametri.
Attiva solo 2,5 miliardi di parametri per token.
Rilasciato sotto licenza Apache 2.0.
Disponibile su Hugging Face.
Raggiunge un'inferenza oltre 2 volte più veloce rispetto a modelli di dimensioni simili.
Concentrato su testo e codice, non multimodale.
Progettato per carichi di lavoro sensibili alla latenza in sistemi AI multi-modello.
Rapporto tecnico disponibile su arXiv.

JetBrains rilascia Mellum2, un modello MoE da 12B per testo e codice a bassa latenza

Fatti principali

Entità

Istituzioni

Fonti