Mix-MoE: Miscela Mista di Esperti per la Traduzione Automatica Multilingue
Un nuovo framework chiamato Mix-MoE affronta l'interferenza dei parametri nella messa a punto di grandi modelli linguistici (LLM) per la traduzione automatica multilingue (MT). L'approccio utilizza un'architettura mista di Mixture-of-Experts (MoE) con due gruppi specializzati: Esperti di Modello Linguistico (LM Experts) per la conoscenza monolingue ed Esperti di Traduzione Automatica (MT Experts) per la conoscenza bilingue della traduzione. L'addestramento avviene in due fasi: post-pre-addestramento con MoE su corpora monolingue, poi su corpora paralleli. Il framework mira a migliorare le prestazioni della MT multilingue mantenendo la conoscenza pre-addestrata.
Fatti principali
- Mix-MoE è un framework di miscela mista di esperti per la traduzione automatica multilingue.
- Affronta l'interferenza dei parametri nella messa a punto di LLM con corpora paralleli.
- Il framework ha due fasi di addestramento: post-pre-addestramento su corpora monolingue, poi su corpora paralleli.
- I livelli MoE sono divisi in Esperti di Modello Linguistico (LM Experts) ed Esperti di Traduzione Automatica (MT Experts).
- Gli LM Experts catturano e mantengono la conoscenza monolingue del LLM pre-addestrato.
- Gli MT Experts sono addestrati per acquisire conoscenza bilingue della traduzione.
- L'approccio mira a migliorare le prestazioni della MT multilingue.
- L'articolo è disponibile su arXiv con ID 2605.24681.
Entità
Istituzioni
- arXiv