ARTFEED — Contemporary Art Intelligence

EMO: Pre-addestramento di Mixture of Experts per Modularità Emergente

ai-technology · 2026-05-08

L'Allen Institute for AI ha rilasciato EMO, un nuovo modello linguistico mixture-of-experts (MoE) pre-addestrato con un obiettivo che incoraggia la struttura modulare a emergere dai dati. A differenza dei MoE standard, dove gli esperti si specializzano in pattern lessicali di basso livello, gli esperti di EMO si organizzano in gruppi semanticamente coerenti corrispondenti a domini come salute, notizie o politica. Ciò consente l'uso selettivo di solo il 12,5% degli esperti (16 su 128) per un dato compito, mantenendo prestazioni quasi complete del modello, con solo circa il 3% di calo assoluto delle prestazioni. Il modello ha 1 miliardo di parametri attivi e 14 miliardi di parametri totali, addestrato su 1 trilione di token. EMO raggiunge questo risultato limitando tutti i token in un documento a instradarsi all'interno di un pool di esperti condiviso, utilizzando i confini del documento come segnale di supervisione debole. Il bilanciamento del carico globale previene il collasso. Il modello eguaglia le prestazioni del MoE standard quando vengono utilizzati tutti gli esperti. Il rilascio include il modello addestrato con EMO, un MoE standard di base e il codice di addestramento.

Fatti principali

  • 1. EMO è un MoE con 1B di parametri attivi e 14B totali, con 128 esperti, 8 attivi per token.
  • 2. Addestrato su 1 trilione di token.
  • 3. L'uso selettivo del 12,5% degli esperti (16) mantiene prestazioni quasi complete del modello con un calo di circa il 3%.
  • 4. Gli esperti si specializzano in domini semantici come Salute, Notizie, Politica, non in pattern lessicali.
  • 5. Il vincolo di instradamento a livello di documento impone un uso coerente degli esperti all'interno dei documenti.
  • 6. Bilanciamento del carico globale utilizzato per prevenire il collasso.
  • 7. Eguaglia le prestazioni del MoE standard quando vengono utilizzati tutti gli esperti.
  • 8. Rilasciato dall'Allen Institute for AI su Hugging Face.

Entità

Istituzioni

  • Allen Institute for AI
  • Hugging Face

Fonti