ARTFEED — Contemporary Art Intelligence

Potenziamento N:M Post-Addestramento per Inferenza Efficiente di LLM

ai-technology · 2026-04-27

Un nuovo studio da arXiv (2509.22166) investiga la potatura di attivazione N:M post-addestramento per modelli linguistici di grandi dimensioni (LLM), scoprendo che la potatura delle attivazioni preserva le capacità generative meglio della potatura dei pesi a livelli di sparsità equivalenti. Il lavoro valuta tecniche leggere di mitigazione degli errori e criteri di potatura, stabilendo baseline hardware-friendly che richiedono una calibrazione minima. Esplora anche pattern di sparsità oltre lo standard 2:4 di NVIDIA, mostrando che il pattern 16:32 raggiunge prestazioni quasi pari alla potatura non strutturata. La ricerca affronta l'area poco esplorata della compressione dinamica delle attivazioni adattiva all'input per ridurre il sovraccarico I/O nell'inferenza degli LLM.

Fatti principali

  • Lo studio si concentra sulla potatura di attivazione N:M post-addestramento negli LLM
  • La potatura delle attivazioni preserva le capacità generative meglio della potatura dei pesi a parità di sparsità
  • Valuta tecniche leggere di mitigazione degli errori plug-and-play
  • Stabilisce baseline hardware-friendly che richiedono una calibrazione minima
  • Esplora pattern di sparsità oltre lo standard 2:4 di NVIDIA
  • Il pattern 16:32 raggiunge prestazioni quasi pari alla potatura non strutturata
  • Affronta la compressione dinamica adattiva all'input e la riduzione del sovraccarico I/O
  • Pubblicato su arXiv con ID 2509.22166

Entità

Istituzioni

  • arXiv
  • NVIDIA

Fonti