ELAS: Pre-addestramento Efficiente di LLM a Basso Rango tramite Sparsità di Attivazione 2:4
Viene proposto un nuovo framework chiamato ELAS (Efficient Pre-training of Low-rank LLMs via 2:4 Activation Sparsity) per affrontare i colli di bottiglia computazionali nell'addestramento di grandi modelli linguistici. Il metodo combina l'addestramento a basso rango, che riduce l'uso della memoria, con la sparsità strutturata 2:4 applicata alle attivazioni (non ai pesi) per sfruttare il supporto delle GPU NVIDIA per formati sparsi. Gli approcci a basso rango esistenti lasciano le matrici di attivazione a rango pieno, dominando il consumo di memoria e limitando il throughput durante l'addestramento con batch di grandi dimensioni. Applicare direttamente la sparsità ai pesi spesso causa un degrado delle prestazioni. ELAS applica la sparsità 2:4 specificamente alle attivazioni, con l'obiettivo di ridurre la memoria e migliorare il throughput senza una significativa perdita di accuratezza. L'articolo è pubblicato su arXiv con ID 2605.03667.
Fatti principali
- 1. ELAS sta per Efficient Pre-training of Low-rank LLMs via 2:4 Activation Sparsity.
- 2. Il framework mira all'addestramento efficiente di grandi modelli linguistici.
- 3. Combina l'addestramento a basso rango con la sparsità strutturata 2:4 sulle attivazioni.
- 4. La sparsità strutturata 2:4 è supportata dalle GPU NVIDIA.
- 5. I metodi a basso rango esistenti lasciano le matrici di attivazione a rango pieno, causando un elevato consumo di memoria.
- 6. La sparsità diretta dei pesi porta a un degrado non trascurabile delle prestazioni.
- 7. ELAS mira a ridurre la memoria e migliorare il throughput durante l'addestramento con batch di grandi dimensioni.
- 8. L'articolo è disponibile su arXiv con ID 2605.03667.
Entità
Istituzioni
- arXiv
- NVIDIA