ARTFEED — Contemporary Art Intelligence

Quant.npu: Framework di Quantizzazione Completamente Statico per LLM su Dispositivi

ai-technology · 2026-05-22

I ricercatori propongono Quant.npu, un framework di quantizzazione completamente statico che consente l'inferenza efficiente di grandi modelli linguistici (LLM) su dispositivi mobili con unità di elaborazione neurale (NPU). I metodi esistenti di quantizzazione post-addestramento (PTQ) si basano sulla quantizzazione dinamica delle attivazioni, incompatibile con i vincoli hardware delle NPU. Quant.npu utilizza una quantizzazione solo interi con parametri apprendibili e matrici di rotazione, eliminando la ricalcolatura a runtime. Lo studio identifica che l'inizializzazione e l'ottimizzazione selettiva dei parametri di quantizzazione sono critiche per la stabilità, poiché un'inizializzazione impropria e un'ottimizzazione congiunta ingenua causano instabilità del gradiente che compromette l'ottimizzazione delle matrici di rotazione.

Fatti principali

  • Quant.npu è un framework di quantizzazione completamente statico per l'inferenza di LLM su NPU mobili.
  • I metodi PTQ esistenti usano la quantizzazione dinamica delle attivazioni, incompatibile con i vincoli delle NPU.
  • Quant.npu impiega una quantizzazione solo interi con parametri apprendibili e matrici di rotazione.
  • Elimina la ricalcolatura a runtime dei parametri di quantizzazione.
  • L'inizializzazione e l'ottimizzazione selettiva dei parametri di quantizzazione sono cruciali per la stabilità.
  • Un'inizializzazione impropria e un'ottimizzazione congiunta ingenua causano instabilità del gradiente.
  • Il framework consente la quantizzazione a bassi bit di pesi e attivazioni.
  • L'articolo è disponibile su arXiv con ID 2605.20295.

Entità

Istituzioni

  • arXiv

Fonti