ZAYA1-8B: Un Modello MoE con 700M di Parametri Attivi per il Ragionamento

ai-technology · 2026-05-09

ZAYA1-8B, un modello mixture-of-experts (MoE), comprende 700 milioni di parametri attivi su un totale di 8 miliardi. È stato creato da Zyphra utilizzando il loro framework MoE++. Il modello è stato addestrato da zero su una piattaforma di calcolo AMD completa, incorporando dati di ragionamento fin dall'inizio attraverso un metodo di potatura che preserva le risposte. Le sue prestazioni sono pari o superiori a DeepSeek-R1-0528 nelle valutazioni di matematica e coding, rimanendo un forte contendente rispetto a modelli di ragionamento open-weight più grandi. Il processo di post-addestramento consiste in una cascata di apprendimento per rinforzo in quattro fasi: riscaldamento iniziale al ragionamento su matematica e puzzle, un curriculum RLVE-Gym di 400 compiti, RL su matematica e codice con tracce di calcolo a tempo di test, e RL comportamentale per l'aderenza a chat e istruzioni.

Fatti principali

1. ZAYA1-8B ha 700M di parametri attivi e 8B totali.
2. Basato sull'architettura MoE++ di Zyphra.
3. Pre-addestramento, mid-addestramento e SFT eseguiti su piattaforma di calcolo AMD.
4. Eguaglia o supera DeepSeek-R1-0528 nei benchmark di matematica e coding.
5. Addestrato da zero per il ragionamento con potatura che preserva le risposte.
6. Il post-addestramento utilizza una cascata RL in quattro fasi.
7. Include un curriculum RLVE-Gym di 400 compiti.
8. Utilizza ambienti di codice sintetici da riferimenti di programmazione competitiva.

ZAYA1-8B: Un Modello MoE con 700M di Parametri Attivi per il Ragionamento

Fatti principali

Entità

Istituzioni

Fonti