JetBrains rilascia Mellum2, un modello MoE da 12B per testo e codice a bassa latenza
JetBrains ha presentato Mellum2, un modello Mixture-of-Experts (MoE) con 12 miliardi di parametri, sviluppato da zero per linguaggio naturale e codice. Questo modello attiva solo 2,5 miliardi di parametri per token, facilitando un'inferenza efficiente e a bassa latenza. È rilasciato sotto licenza Apache 2.0 e può essere trovato su Hugging Face. Mellum2 è pensato per attività sensibili alla latenza come routing, generazione aumentata da recupero (RAG), riassunto, sub-agenti e implementazioni private, vantando un'inferenza oltre 2 volte più veloce rispetto a modelli aperti di dimensioni simili. Concentrato esclusivamente su testo e codice, evita attività multimodali per mantenere l'efficienza nell'ingegneria del software. Un rapporto tecnico completo sulla sua architettura, addestramento, benchmark e valutazione è disponibile su arXiv.
Fatti principali
- Mellum2 è un modello Mixture-of-Experts da 12 miliardi di parametri.
- Attiva solo 2,5 miliardi di parametri per token.
- Rilasciato sotto licenza Apache 2.0.
- Disponibile su Hugging Face.
- Raggiunge un'inferenza oltre 2 volte più veloce rispetto a modelli di dimensioni simili.
- Concentrato su testo e codice, non multimodale.
- Progettato per carichi di lavoro sensibili alla latenza in sistemi AI multi-modello.
- Rapporto tecnico disponibile su arXiv.
Entità
Istituzioni
- JetBrains
- Hugging Face