Potatura del 75% degli Esperti da MoE LLM per la Traduzione con Perdita Minima

ai-technology · 2026-05-28

Un nuovo metodo pota aggressivamente gli esperti dai modelli linguistici di grandi dimensioni con miscela di esperti per creare specialisti di traduzione efficienti. L'approccio sfrutta la specializzazione degli esperti e le capacità multilingue separabili per identificare e rimuovere gli esperti irrilevanti per la traduzione senza riaddestramento. Potare la metà di tutti gli esperti produce un degrado trascurabile, la potatura del 70% causa solo perdite minori, e la potatura del 75% con un breve addestramento supervisionato fine recupera le prestazioni di base. Ciò riduce drasticamente i requisiti di memoria e calcolo per le attività di traduzione.

Fatti principali

Il metodo pota gli esperti dai MoE LLM per la traduzione
Sfrutta la specializzazione degli esperti e le capacità multilingue separabili
Potare il 50% degli esperti produce un degrado trascurabile
Potare il 70% causa solo perdite minori
Potare il 75% con breve SFT recupera le prestazioni di base
Nessun riaddestramento richiesto per potatura moderata
Riduce i requisiti di memoria e calcolo
Pubblicato su arXiv con ID 2605.28042

Potatura del 75% degli Esperti da MoE LLM per la Traduzione con Perdita Minima

Fatti principali

Entità

Istituzioni

Fonti