Il Framework LBLLM Consente una Efficiente Binarizzazione dei Modelli Linguistici di Grandi Dimensioni per Ambienti con Risorse Limitare
Un innovativo framework di binarizzazione leggera denominato LBLLM è stato introdotto per affrontare le sfide computazionali e di memoria nell'implementazione di modelli linguistici di grandi dimensioni in ambienti con risorse limitate. Questo framework utilizza un approccio di quantizzazione in tre fasi che raggiunge efficacemente la quantizzazione W(1+1)A4. Inizialmente, stabilisce un modello quantizzato di alta qualità attraverso la quantizzazione post-addestramento (PTQ). Successivamente, quantizza i pesi binarizzati, le bitmap per gruppi e i parametri di quantizzazione mediante distillazione layer-wise, mantenendo le attivazioni a precisione completa. Infine, addestra fattori di quantizzazione delle attivazioni regolabili per convertire dinamicamente le attivazioni a 4 bit. Questo design separato minimizza l'interferenza tra la quantizzazione dei pesi e delle attivazioni, migliorando la stabilità dell'addestramento e l'accuratezza dell'inferenza. È degno di nota che LBLLM è stato addestrato con soli 0,016 miliardi di token su una singola GPU, superando le attuali tecniche di binarizzazione leader nelle configurazioni W2A4. I risultati sono stati condivisi su arXiv, identificatore arXiv:2604.19167v1, evidenziando progressi significativi nei metodi di compressione dei modelli di IA.
Fatti principali
- LBLLM è un framework di binarizzazione leggera per modelli linguistici di grandi dimensioni
- Utilizza una strategia di quantizzazione in tre fasi per la quantizzazione W(1+1)A4
- Fase 1: Inizializza un modello quantizzato di alta qualità tramite PTQ
- Fase 2: Quantizza pesi binarizzati, bitmap per gruppi e parametri attraverso distillazione layer-wise
- Fase 3: Addestra fattori di quantizzazione delle attivazioni apprendibili per la quantizzazione delle attivazioni a 4 bit
- Il design disaccoppiato mitiga l'interferenza tra la quantizzazione dei pesi e delle attivazioni
- Addestrato con soli 0,016 miliardi di token utilizzando una singola GPU
- Supera i metodi di binarizzazione all'avanguardia esistenti nelle configurazioni W2A4
Entità
Istituzioni
- arXiv