Il Framework GRASPrune Consente una Potatura Strutturata Efficiente dei Modelli Linguistici di Grandi Dimensioni
Una nuova tecnica di potatura strutturata denominata GRASPrune è stata introdotta per ridurre i costi computazionali associati ai modelli linguistici di grandi dimensioni. Questo metodo pota simultaneamente i canali nelle reti feed-forward e i gruppi di teste chiave-valore, rispettando un vincolo di budget globale unificato. A differenza dei metodi che applicano i budget esclusivamente dopo l'addestramento, GRASPrune utilizza uno stimatore projected straight-through per derivare punteggi di gate leggeri, imponendo una maschera rigida che soddisfa il budget ad ogni passo di addestramento mantenendo invariati i pesi del backbone. Una volta stabilita la maschera, i fattori di scala vengono regolati per le unità mantenute per affrontare gli squilibri di scala derivanti dalla potatura. Implementato su LLaMA-2-7B, il framework elimina con successo il 50% dei parametri e raggiunge una perplessità di 12,18 su WikiText-. I risultati sono stati pubblicati come arXiv:2604.19398v1, offrendo una strategia di potatura post-pretraining che preserva l'efficienza del modello senza sacrificare le prestazioni.
Fatti principali
- GRASPrune è un framework di potatura strutturata per modelli linguistici di grandi dimensioni
- Pota congiuntamente i canali FFN e i gruppi di teste KV sotto un singolo budget globale
- Utilizza uno stimatore projected straight-through per apprendere punteggi di gate con vincoli di maschera rigida
- Mantiene i pesi del backbone congelati durante il processo di potatura
- Calibra i fattori di scala sulle unità mantenute per mitigare lo squilibrio di scala indotto dalla potatura
- Incorpora i fattori di scala nei pesi potati per creare un checkpoint denso più piccolo
- Su LLaMA-2-7B, rimuove il 50% dei parametri raggiungendo una perplessità di 12,18 su WikiText-
- Affronta i costi di memoria e latenza derivanti da parametri, calcolo dell'attenzione e cache KV
Entità
—