Miscuglio di Esperti Eterogenei Raggruppati per una Modellazione Linguistica Efficiente
Un recente articolo pubblicato su arXiv introduce il Miscuglio di Esperti Eterogenei Raggruppati (MoHGE) per affrontare le carenze dei tradizionali modelli Mixture-of-Experts (MoE) nei Large Language Models (LLM). I MoE convenzionali impongono dimensioni uniformi agli esperti, portando a un'inflessibilità che non corrisponde alle richieste computazionali con la variabile complessità dei token. Sebbene i progetti di esperti eterogenei mirino a diversificare le dimensioni degli esperti, lottano con un utilizzo non uniforme della GPU e una scarsa efficienza dei parametri. MoHGE presenta un sistema di routing a due livelli per combinazioni di esperti adattabili e attente alle risorse, e suggerisce una Group-Wise Auxiliary Loss per indirizzare efficacemente i token verso gli esperti più efficienti, migliorando le prestazioni di inferenza. L'articolo è disponibile su arXiv con l'ID 2604.23108.
Fatti principali
- ID articolo arXiv: 2604.23108
- Propone il Miscuglio di Esperti Eterogenei Raggruppati (MoHGE)
- Affronta la rigidità delle dimensioni uniformi degli esperti nei MoE standard
- Le architetture di esperti eterogenei hanno un utilizzo sbilanciato della GPU
- MoHGE utilizza un meccanismo di routing a due livelli
- Introduce la Group-Wise Auxiliary Loss per il controllo dei token
- Mira a colmare il divario tra eterogeneità teorica e applicazione industriale
- Si concentra sull'ottimizzazione dell'efficienza dell'inferenza
Entità
Istituzioni
- arXiv