Il Framework GRASPrune Consente una Potatura Strutturata Efficiente dei Modelli Linguistici di Grandi Dimensioni

ai-technology · 2026-04-22

Una nuova tecnica di potatura strutturata denominata GRASPrune è stata introdotta per ridurre i costi computazionali associati ai modelli linguistici di grandi dimensioni. Questo metodo pota simultaneamente i canali nelle reti feed-forward e i gruppi di teste chiave-valore, rispettando un vincolo di budget globale unificato. A differenza dei metodi che applicano i budget esclusivamente dopo l'addestramento, GRASPrune utilizza uno stimatore projected straight-through per derivare punteggi di gate leggeri, imponendo una maschera rigida che soddisfa il budget ad ogni passo di addestramento mantenendo invariati i pesi del backbone. Una volta stabilita la maschera, i fattori di scala vengono regolati per le unità mantenute per affrontare gli squilibri di scala derivanti dalla potatura. Implementato su LLaMA-2-7B, il framework elimina con successo il 50% dei parametri e raggiunge una perplessità di 12,18 su WikiText-. I risultati sono stati pubblicati come arXiv:2604.19398v1, offrendo una strategia di potatura post-pretraining che preserva l'efficienza del modello senza sacrificare le prestazioni.

Fatti principali

GRASPrune è un framework di potatura strutturata per modelli linguistici di grandi dimensioni
Pota congiuntamente i canali FFN e i gruppi di teste KV sotto un singolo budget globale
Utilizza uno stimatore projected straight-through per apprendere punteggi di gate con vincoli di maschera rigida
Mantiene i pesi del backbone congelati durante il processo di potatura
Calibra i fattori di scala sulle unità mantenute per mitigare lo squilibrio di scala indotto dalla potatura
Incorpora i fattori di scala nei pesi potati per creare un checkpoint denso più piccolo
Su LLaMA-2-7B, rimuove il 50% dei parametri raggiungendo una perplessità di 12,18 su WikiText-
Affronta i costi di memoria e latenza derivanti da parametri, calcolo dell'attenzione e cache KV

Entità

—

Fonti

arXiv cs.AI — 2026-04-22