MobileMoE: I modelli linguistici MoE per dispositivi mobili raggiungono una nuova frontiera di Pareto
MobileMoE introduce una serie di modelli linguistici Mixture-of-Experts (MoE) per dispositivi mobili, con 0,3-0,9 miliardi di parametri attivi e un totale di 1,3-5,3 miliardi di parametri, stabilendo un nuovo punto di riferimento per i LLM su dispositivo. Lo studio presenta una legge di scaling per MoE su dispositivo che bilancia in modo ottimale l'architettura entro i limiti di memoria e calcolo mobile, individuando una combinazione ideale di sparsità moderata e esperti condivisi finemente sintonizzati. L'addestramento avviene attraverso un processo in quattro fasi (pre-addestramento, addestramento intermedio, fine-tuning con istruzioni, addestramento consapevole della quantizzazione) utilizzando dataset open-source. Nelle valutazioni su 14 benchmark, MobileMoE eguaglia o supera le prestazioni dei modelli attuali.
Fatti principali
- I modelli MobileMoE hanno 0,3-0,9 miliardi di parametri attivi e 1,3-5,3 miliardi di parametri totali.
- La legge di scaling ottimizza l'architettura MoE per i vincoli di memoria e calcolo mobile.
- La configurazione ottimale utilizza sparsità moderata con esperti finemente granulari e condivisi.
- L'addestramento include pre-addestramento, addestramento intermedio, fine-tuning con istruzioni e addestramento consapevole della quantizzazione.
- Tutti i dati di addestramento provengono da dataset open-source.
- MobileMoE è valutato su 14 benchmark.
- I modelli stabiliscono una nuova frontiera di Pareto per i LLM su dispositivo.
- Il lavoro è pubblicato su arXiv (2605.27358).
Entità
Istituzioni
- arXiv