Laguna M.1 e XS.2: Nuovi Modelli Mixture-of-Experts per la Codifica Agentica
Laguna M.1 e Laguna XS.2 sono due modelli fondazionali Mixture-of-Experts progettati per sfide di codifica agentica a lungo orizzonte. Il modello M.1 vanta un totale di 225,8 miliardi di parametri, con 23,4 miliardi attivati per token, mentre XS.2 presenta 33,4 miliardi di parametri totali e 3 miliardi attivati per token. Entrambi i modelli sono stati addestrati end-to-end da zero all'interno della Model Factory, un sistema coeso che comprende dati versionati, formazione, valutazione e componenti di inferenza. Il rapporto illustra i principi di progettazione e le scelte della Model Factory, dettagliando il processo di addestramento completo, inclusi dati e architettura di pre-addestramento, fasi di post-addestramento, valutazione e quantizzazione. In benchmark come SWE-bench Verified, SWE-bench Multilingual, SWE-Bench Pro e Terminal-Bench 2.0, entrambi i modelli competono efficacemente con i principali modelli aperti nelle rispettive categorie di parametri.
Fatti principali
- Laguna M.1 ha 225,8 miliardi di parametri totali (23,4 miliardi attivati per token).
- Laguna XS.2 ha 33,4 miliardi di parametri totali (3 miliardi attivati per token).
- Entrambi i modelli sono modelli fondazionali Mixture-of-Experts per la codifica agentica.
- Addestrati da zero end-to-end all'interno del sistema Model Factory.
- Model Factory è uno stack strettamente integrato di dati versionati, formazione, valutazione e componenti di inferenza.
- Il rapporto copre dati di pre-addestramento, architettura, post-addestramento, valutazione e quantizzazione.
- I benchmark includono SWE-bench Verified, SWE-bench Multilingual, SWE-Bench Pro e Terminal-Bench 2.0.
- Competitivi con i modelli aperti all'avanguardia nelle rispettive fasce di parametri.
Entità
—