MiniMax-M2: Modello Mixture-of-Experts da 229,9 Miliardi di Parametri con RL Agentico

ai-technology · 2026-05-27

La serie MiniMax-M2 presenta un insieme di modelli linguistici Mixture-of-Experts progettati per applicazioni agentiche. Il modello principale, M2, vanta un totale di 229,9 miliardi di parametri, con solo 9,8 miliardi attivati per ogni token. Questa serie si basa su tre elementi chiave: pipeline di dati guidate da agenti che generano estese traiettorie verificabili nel coding e cowork agentici, ancorate in uno spazio di lavoro eseguibile con una ricompensa allineata agli artefatti; Forge, un sistema RL scalabile su misura per agenti che gestisce traiettorie a lungo orizzonte, utilizzando scheduling windowed-FIFO, merging di alberi di prefissi, ottimizzazione dell'inferenza e una netta separazione di training, inferenza e agenti per tipi white-box e black-box; e il checkpoint M2.7 più recente, che segna un primo passo verso l'auto-evoluzione, debuggando autonomamente i propri processi di training e alterando il proprio codice.

Fatti principali

La serie MiniMax-M2 è una famiglia di modelli linguistici Mixture-of-Experts.
Il modello di punta M2 ha 229,9 miliardi di parametri totali con 9,8 miliardi attivati per token.
Progettato end-to-end per il deployment agentico.
Pipeline di dati guidate da agenti producono traiettorie verificabili per coding e cowork.
Forge è un sistema RL scalabile nativo per agenti.
Forge include scheduling windowed-FIFO, merging di alberi di prefissi, ottimizzazione dell'inferenza.
Il disaccoppiamento training-inferenza-agente supporta agenti white-box e black-box.
Il checkpoint M2.7 debugga autonomamente le sessioni di training e modifica il proprio codice.

Entità

—

Fonti

arXiv cs.AI — 2026-05-27