Quant.npu: Framework di Quantizzazione Completamente Statico per LLM su Dispositivi

ai-technology · 2026-05-22

I ricercatori propongono Quant.npu, un framework di quantizzazione completamente statico che consente l'inferenza efficiente di grandi modelli linguistici (LLM) su dispositivi mobili con unità di elaborazione neurale (NPU). I metodi esistenti di quantizzazione post-addestramento (PTQ) si basano sulla quantizzazione dinamica delle attivazioni, incompatibile con i vincoli hardware delle NPU. Quant.npu utilizza una quantizzazione solo interi con parametri apprendibili e matrici di rotazione, eliminando la ricalcolatura a runtime. Lo studio identifica che l'inizializzazione e l'ottimizzazione selettiva dei parametri di quantizzazione sono critiche per la stabilità, poiché un'inizializzazione impropria e un'ottimizzazione congiunta ingenua causano instabilità del gradiente che compromette l'ottimizzazione delle matrici di rotazione.

Fatti principali

Quant.npu è un framework di quantizzazione completamente statico per l'inferenza di LLM su NPU mobili.
I metodi PTQ esistenti usano la quantizzazione dinamica delle attivazioni, incompatibile con i vincoli delle NPU.
Quant.npu impiega una quantizzazione solo interi con parametri apprendibili e matrici di rotazione.
Elimina la ricalcolatura a runtime dei parametri di quantizzazione.
L'inizializzazione e l'ottimizzazione selettiva dei parametri di quantizzazione sono cruciali per la stabilità.
Un'inizializzazione impropria e un'ottimizzazione congiunta ingenua causano instabilità del gradiente.
Il framework consente la quantizzazione a bassi bit di pesi e attivazioni.
L'articolo è disponibile su arXiv con ID 2605.20295.

Quant.npu: Framework di Quantizzazione Completamente Statico per LLM su Dispositivi

Fatti principali

Entità

Istituzioni

Fonti