Potenziamento N:M Post-Addestramento per Inferenza Efficiente di LLM
Un nuovo studio da arXiv (2509.22166) investiga la potatura di attivazione N:M post-addestramento per modelli linguistici di grandi dimensioni (LLM), scoprendo che la potatura delle attivazioni preserva le capacità generative meglio della potatura dei pesi a livelli di sparsità equivalenti. Il lavoro valuta tecniche leggere di mitigazione degli errori e criteri di potatura, stabilendo baseline hardware-friendly che richiedono una calibrazione minima. Esplora anche pattern di sparsità oltre lo standard 2:4 di NVIDIA, mostrando che il pattern 16:32 raggiunge prestazioni quasi pari alla potatura non strutturata. La ricerca affronta l'area poco esplorata della compressione dinamica delle attivazioni adattiva all'input per ridurre il sovraccarico I/O nell'inferenza degli LLM.
Fatti principali
- Lo studio si concentra sulla potatura di attivazione N:M post-addestramento negli LLM
- La potatura delle attivazioni preserva le capacità generative meglio della potatura dei pesi a parità di sparsità
- Valuta tecniche leggere di mitigazione degli errori plug-and-play
- Stabilisce baseline hardware-friendly che richiedono una calibrazione minima
- Esplora pattern di sparsità oltre lo standard 2:4 di NVIDIA
- Il pattern 16:32 raggiunge prestazioni quasi pari alla potatura non strutturata
- Affronta la compressione dinamica adattiva all'input e la riduzione del sovraccarico I/O
- Pubblicato su arXiv con ID 2509.22166
Entità
Istituzioni
- arXiv
- NVIDIA