Marco-MoE: Modelli MoE Sparse Multilingue Aperti con Efficiente Upcycling

ai-technology · 2026-04-30

Un nuovo set di modelli linguistici aperti multilingue basati su Mixture-of-Experts (MoE) sparsi, chiamati Marco-MoE, è stato introdotto dai ricercatori. Questi modelli utilizzano solo circa il 5% dei loro parametri totali per ogni token in input, garantendo una notevole scarsità. Sfruttando l'upcycling da modelli densi, vengono pre-addestrati efficientemente su 5 trilioni di token. Marco-MoE supera rivali di dimensioni simili nei benchmark in inglese e multilingue, dimostrando un eccezionale rapporto prestazioni/calcolo. Le varianti addestrate per l'istruzione superano modelli con 3-14 volte più parametri attivi. L'analisi indica che Marco-MoE identifica pattern di attivazione degli esperti strutturati comuni tra lingue correlate, mentre soddisfa anche quelle linguisticamente distinte, facilitando una crescita scalabile delle lingue senza sovrapposizioni.

Fatti principali

Marco-MoE è un set di modelli aperti multilingue basati su Mixture-of-Experts sparsi.
Solo circa il 5% dei parametri totali viene attivato per ogni token in input.
L'upcycling da modelli densi consente un pre-addestramento efficiente su 5T token.
I modelli superano i concorrenti di dimensioni simili nei benchmark in inglese e multilingue.
Le varianti per istruzione superano modelli con 3-14× più parametri attivi.
Pattern di attivazione degli esperti strutturati sono condivisi tra lingue correlate.
Viene mantenuta un'utilizzazione specializzata per le lingue linguisticamente isolate.
L'espansione scalabile delle lingue è possibile senza interferenze.

Entità

—

Fonti

arXiv cs.AI — 2026-04-29