Marco-MoE: Modelli MoE Sparse Multilingue Aperti con Efficiente Upcycling
Un nuovo set di modelli linguistici aperti multilingue basati su Mixture-of-Experts (MoE) sparsi, chiamati Marco-MoE, è stato introdotto dai ricercatori. Questi modelli utilizzano solo circa il 5% dei loro parametri totali per ogni token in input, garantendo una notevole scarsità. Sfruttando l'upcycling da modelli densi, vengono pre-addestrati efficientemente su 5 trilioni di token. Marco-MoE supera rivali di dimensioni simili nei benchmark in inglese e multilingue, dimostrando un eccezionale rapporto prestazioni/calcolo. Le varianti addestrate per l'istruzione superano modelli con 3-14 volte più parametri attivi. L'analisi indica che Marco-MoE identifica pattern di attivazione degli esperti strutturati comuni tra lingue correlate, mentre soddisfa anche quelle linguisticamente distinte, facilitando una crescita scalabile delle lingue senza sovrapposizioni.
Fatti principali
- Marco-MoE è un set di modelli aperti multilingue basati su Mixture-of-Experts sparsi.
- Solo circa il 5% dei parametri totali viene attivato per ogni token in input.
- L'upcycling da modelli densi consente un pre-addestramento efficiente su 5T token.
- I modelli superano i concorrenti di dimensioni simili nei benchmark in inglese e multilingue.
- Le varianti per istruzione superano modelli con 3-14× più parametri attivi.
- Pattern di attivazione degli esperti strutturati sono condivisi tra lingue correlate.
- Viene mantenuta un'utilizzazione specializzata per le lingue linguisticamente isolate.
- L'espansione scalabile delle lingue è possibile senza interferenze.
Entità
—