Quant.npu: Framework di Quantizzazione Completamente Statico per LLM su Dispositivi
I ricercatori propongono Quant.npu, un framework di quantizzazione completamente statico che consente l'inferenza efficiente di grandi modelli linguistici (LLM) su dispositivi mobili con unità di elaborazione neurale (NPU). I metodi esistenti di quantizzazione post-addestramento (PTQ) si basano sulla quantizzazione dinamica delle attivazioni, incompatibile con i vincoli hardware delle NPU. Quant.npu utilizza una quantizzazione solo interi con parametri apprendibili e matrici di rotazione, eliminando la ricalcolatura a runtime. Lo studio identifica che l'inizializzazione e l'ottimizzazione selettiva dei parametri di quantizzazione sono critiche per la stabilità, poiché un'inizializzazione impropria e un'ottimizzazione congiunta ingenua causano instabilità del gradiente che compromette l'ottimizzazione delle matrici di rotazione.
Fatti principali
- Quant.npu è un framework di quantizzazione completamente statico per l'inferenza di LLM su NPU mobili.
- I metodi PTQ esistenti usano la quantizzazione dinamica delle attivazioni, incompatibile con i vincoli delle NPU.
- Quant.npu impiega una quantizzazione solo interi con parametri apprendibili e matrici di rotazione.
- Elimina la ricalcolatura a runtime dei parametri di quantizzazione.
- L'inizializzazione e l'ottimizzazione selettiva dei parametri di quantizzazione sono cruciali per la stabilità.
- Un'inizializzazione impropria e un'ottimizzazione congiunta ingenua causano instabilità del gradiente.
- Il framework consente la quantizzazione a bassi bit di pesi e attivazioni.
- L'articolo è disponibile su arXiv con ID 2605.20295.
Entità
Istituzioni
- arXiv