ARTFEED — Contemporary Art Intelligence

Potatura del 75% degli Esperti da MoE LLM per la Traduzione con Perdita Minima

ai-technology · 2026-05-28

Un nuovo metodo pota aggressivamente gli esperti dai modelli linguistici di grandi dimensioni con miscela di esperti per creare specialisti di traduzione efficienti. L'approccio sfrutta la specializzazione degli esperti e le capacità multilingue separabili per identificare e rimuovere gli esperti irrilevanti per la traduzione senza riaddestramento. Potare la metà di tutti gli esperti produce un degrado trascurabile, la potatura del 70% causa solo perdite minori, e la potatura del 75% con un breve addestramento supervisionato fine recupera le prestazioni di base. Ciò riduce drasticamente i requisiti di memoria e calcolo per le attività di traduzione.

Fatti principali

  • Il metodo pota gli esperti dai MoE LLM per la traduzione
  • Sfrutta la specializzazione degli esperti e le capacità multilingue separabili
  • Potare il 50% degli esperti produce un degrado trascurabile
  • Potare il 70% causa solo perdite minori
  • Potare il 75% con breve SFT recupera le prestazioni di base
  • Nessun riaddestramento richiesto per potatura moderata
  • Riduce i requisiti di memoria e calcolo
  • Pubblicato su arXiv con ID 2605.28042

Entità

Istituzioni

  • arXiv

Fonti