Potatura del 75% degli Esperti da MoE LLM per la Traduzione con Perdita Minima
Un nuovo metodo pota aggressivamente gli esperti dai modelli linguistici di grandi dimensioni con miscela di esperti per creare specialisti di traduzione efficienti. L'approccio sfrutta la specializzazione degli esperti e le capacità multilingue separabili per identificare e rimuovere gli esperti irrilevanti per la traduzione senza riaddestramento. Potare la metà di tutti gli esperti produce un degrado trascurabile, la potatura del 70% causa solo perdite minori, e la potatura del 75% con un breve addestramento supervisionato fine recupera le prestazioni di base. Ciò riduce drasticamente i requisiti di memoria e calcolo per le attività di traduzione.
Fatti principali
- Il metodo pota gli esperti dai MoE LLM per la traduzione
- Sfrutta la specializzazione degli esperti e le capacità multilingue separabili
- Potare il 50% degli esperti produce un degrado trascurabile
- Potare il 70% causa solo perdite minori
- Potare il 75% con breve SFT recupera le prestazioni di base
- Nessun riaddestramento richiesto per potatura moderata
- Riduce i requisiti di memoria e calcolo
- Pubblicato su arXiv con ID 2605.28042
Entità
Istituzioni
- arXiv