Multi-Scale Dequant: Nuovo Metodo di Inferenza LLM Elimina il Collo di Bottiglia della Dequantizzazione

ai-technology · 2026-05-16

Una recente pubblicazione su arXiv (2605.13915) presenta Multi-Scale Dequant (MSD), un metodo di quantizzazione volto ad affrontare il collo di bottiglia della dequantizzazione durante l'inferenza dei modelli linguistici di grandi dimensioni (LLM). Negli acceleratori AI contemporanei con unità di calcolo separate, come gli Ascend NPU, le operazioni di dequantizzazione possono richiedere più tempo della moltiplicazione di matrici, portando a un sottoutilizzo dei tensor core. MSD allevia il percorso critico GEMM scomponendo le attivazioni BF16 ad alta precisione in diverse parti a bassa precisione, che vengono poi moltiplicate direttamente con i pesi quantizzati utilizzando GEMM nativo accelerato dall'hardware. Questo approccio sposta il focus computazionale dalla conversione di precisione all'approssimazione multiscala, minimizzando così i carichi I/O e computazionali associati alla dequantizzazione, migliorando infine l'efficienza dell'inferenza LLM su hardware specializzato.

Fatti principali

1. Il paper arXiv:2605.13915 introduce Multi-Scale Dequant (MSD).
2. MSD elimina la dequantizzazione dal percorso critico GEMM.
3. La dequantizzazione consuma più cicli della moltiplicazione di matrici sugli Ascend NPU.
4. MSD scompone le attivazioni BF16 in componenti a bassa precisione.
5. Ogni componente viene moltiplicato direttamente con i pesi quantizzati tramite GEMM nativo.
6. L'approccio passa dalla conversione di precisione all'approssimazione multiscala.
7. Mira all'inferenza efficiente di LLM su acceleratori con unità di calcolo disaccoppiate.
8. Evita il sovraccarico I/O e computazionale della dequantizzazione.

Entità

—

Fonti

arXiv cs.AI — 2026-05-16