Il framework MACS migliora l'efficienza dell'inferenza MoE multimodale

ai-technology · 2026-05-09

I ricercatori propongono MACS (Modality-Aware Capacity Scaling), un framework di inferenza senza addestramento per affrontare i colli di bottiglia nell'efficienza dei modelli linguistici di grandi dimensioni multimodali basati su Mixture-of-Experts (MoE MLLM) durante l'inferenza con Expert Parallelism (EP). L'effetto straggler è aggravato nei contesti multimodali a causa dell'eterogeneità informativa, dove i token visivi ridondanti vengono trattati allo stesso modo di quelli critici, e delle dinamiche di modalità, dove rapporti variabili tra elementi visivi e testuali causano una cattiva allocazione delle risorse. MACS introduce un meccanismo di carico basato sull'entropia (Entropy-Weighted Load) per quantificare il valore semantico dei token visivi e un meccanismo di capacità adattiva dinamica per modalità (Dynamic Modality-Adaptive Capacity) per allocare le risorse degli esperti in base alla composizione modale in tempo reale. Il framework è descritto in dettaglio in arXiv:2605.05225.

Fatti principali

MACS è un framework di inferenza senza addestramento
Affronta il collo di bottiglia nell'efficienza dei MoE MLLM durante l'inferenza EP
Due sfide: eterogeneità informativa e dinamiche di modalità
Il meccanismo Entropy-Weighted Load quantifica il valore semantico dei token visivi
Il meccanismo Dynamic Modality-Adaptive Capacity alloca le risorse degli esperti in base alla composizione modale in tempo reale
Pubblicato su arXiv con ID 2605.05225
Tipo di annuncio: cross
Proposto da ricercatori (autori non specificati nell'abstract)

Il framework MACS migliora l'efficienza dell'inferenza MoE multimodale

Fatti principali

Entità

Istituzioni

Fonti