Potenziamento N:M Post-Addestramento per Inferenza Efficiente di LLM

ai-technology · 2026-04-27

Un nuovo studio da arXiv (2509.22166) investiga la potatura di attivazione N:M post-addestramento per modelli linguistici di grandi dimensioni (LLM), scoprendo che la potatura delle attivazioni preserva le capacità generative meglio della potatura dei pesi a livelli di sparsità equivalenti. Il lavoro valuta tecniche leggere di mitigazione degli errori e criteri di potatura, stabilendo baseline hardware-friendly che richiedono una calibrazione minima. Esplora anche pattern di sparsità oltre lo standard 2:4 di NVIDIA, mostrando che il pattern 16:32 raggiunge prestazioni quasi pari alla potatura non strutturata. La ricerca affronta l'area poco esplorata della compressione dinamica delle attivazioni adattiva all'input per ridurre il sovraccarico I/O nell'inferenza degli LLM.

Fatti principali

Lo studio si concentra sulla potatura di attivazione N:M post-addestramento negli LLM
La potatura delle attivazioni preserva le capacità generative meglio della potatura dei pesi a parità di sparsità
Valuta tecniche leggere di mitigazione degli errori plug-and-play
Stabilisce baseline hardware-friendly che richiedono una calibrazione minima
Esplora pattern di sparsità oltre lo standard 2:4 di NVIDIA
Il pattern 16:32 raggiunge prestazioni quasi pari alla potatura non strutturata
Affronta la compressione dinamica adattiva all'input e la riduzione del sovraccarico I/O
Pubblicato su arXiv con ID 2509.22166

Potenziamento N:M Post-Addestramento per Inferenza Efficiente di LLM

Fatti principali

Entità

Istituzioni

Fonti