Il framework MACS migliora l'efficienza dell'inferenza MoE multimodale
I ricercatori propongono MACS (Modality-Aware Capacity Scaling), un framework di inferenza senza addestramento per affrontare i colli di bottiglia nell'efficienza dei modelli linguistici di grandi dimensioni multimodali basati su Mixture-of-Experts (MoE MLLM) durante l'inferenza con Expert Parallelism (EP). L'effetto straggler è aggravato nei contesti multimodali a causa dell'eterogeneità informativa, dove i token visivi ridondanti vengono trattati allo stesso modo di quelli critici, e delle dinamiche di modalità, dove rapporti variabili tra elementi visivi e testuali causano una cattiva allocazione delle risorse. MACS introduce un meccanismo di carico basato sull'entropia (Entropy-Weighted Load) per quantificare il valore semantico dei token visivi e un meccanismo di capacità adattiva dinamica per modalità (Dynamic Modality-Adaptive Capacity) per allocare le risorse degli esperti in base alla composizione modale in tempo reale. Il framework è descritto in dettaglio in arXiv:2605.05225.
Fatti principali
- MACS è un framework di inferenza senza addestramento
- Affronta il collo di bottiglia nell'efficienza dei MoE MLLM durante l'inferenza EP
- Due sfide: eterogeneità informativa e dinamiche di modalità
- Il meccanismo Entropy-Weighted Load quantifica il valore semantico dei token visivi
- Il meccanismo Dynamic Modality-Adaptive Capacity alloca le risorse degli esperti in base alla composizione modale in tempo reale
- Pubblicato su arXiv con ID 2605.05225
- Tipo di annuncio: cross
- Proposto da ricercatori (autori non specificati nell'abstract)
Entità
Istituzioni
- arXiv