Miscuglio di Esperti Eterogenei Raggruppati per una Modellazione Linguistica Efficiente

ai-technology · 2026-04-29

Un recente articolo pubblicato su arXiv introduce il Miscuglio di Esperti Eterogenei Raggruppati (MoHGE) per affrontare le carenze dei tradizionali modelli Mixture-of-Experts (MoE) nei Large Language Models (LLM). I MoE convenzionali impongono dimensioni uniformi agli esperti, portando a un'inflessibilità che non corrisponde alle richieste computazionali con la variabile complessità dei token. Sebbene i progetti di esperti eterogenei mirino a diversificare le dimensioni degli esperti, lottano con un utilizzo non uniforme della GPU e una scarsa efficienza dei parametri. MoHGE presenta un sistema di routing a due livelli per combinazioni di esperti adattabili e attente alle risorse, e suggerisce una Group-Wise Auxiliary Loss per indirizzare efficacemente i token verso gli esperti più efficienti, migliorando le prestazioni di inferenza. L'articolo è disponibile su arXiv con l'ID 2604.23108.

Fatti principali

ID articolo arXiv: 2604.23108
Propone il Miscuglio di Esperti Eterogenei Raggruppati (MoHGE)
Affronta la rigidità delle dimensioni uniformi degli esperti nei MoE standard
Le architetture di esperti eterogenei hanno un utilizzo sbilanciato della GPU
MoHGE utilizza un meccanismo di routing a due livelli
Introduce la Group-Wise Auxiliary Loss per il controllo dei token
Mira a colmare il divario tra eterogeneità teorica e applicazione industriale
Si concentra sull'ottimizzazione dell'efficienza dell'inferenza

Miscuglio di Esperti Eterogenei Raggruppati per una Modellazione Linguistica Efficiente

Fatti principali

Entità

Istituzioni

Fonti