GISP: Un Metodo di Potatura Globale per LLM Efficienti
Un nuovo metodo di potatura strutturata chiamato GISP (Global Iterative Structured Pruning) migliora l'efficienza dei grandi modelli linguistici (LLM) senza richiedere fine-tuning. A differenza del paradigma locale dominante, che è task-agnostico e preserva la perplessità ma limita i guadagni downstream, GISP utilizza punteggi di importanza globali basati sulla perdita con normalizzazione a blocchi per rimuovere head di attenzione e canali MLP. Adotta un programma iterativo anziché una potatura unica, stabilizzando l'accuratezza a maggiore sparsità e mitigando il collasso della perplessità. Il metodo è post-addestramento e mira a fornire architetture compatte e hardware-friendly che sfruttano segnali di calibrazione specifici del task. La ricerca è presentata nell'articolo arXiv 2510.18030.
Fatti principali
- GISP sta per Global Iterative Structured Pruning.
- Rimuove head di attenzione e canali MLP.
- Utilizza punteggi di importanza basati sulla perdita del primo ordine.
- Impiega normalizzazione a blocchi.
- Adotta un programma di potatura iterativo.
- Mira a migliorare le prestazioni sui task downstream.
- Opera post-addestramento senza fine-tuning.
- Progettato per grandi modelli linguistici (LLM).
Entità
—