Il Framework LBLLM Consente una Efficiente Binarizzazione dei Modelli Linguistici di Grandi Dimensioni per Ambienti con Risorse Limitare

ai-technology · 2026-04-22

Un innovativo framework di binarizzazione leggera denominato LBLLM è stato introdotto per affrontare le sfide computazionali e di memoria nell'implementazione di modelli linguistici di grandi dimensioni in ambienti con risorse limitate. Questo framework utilizza un approccio di quantizzazione in tre fasi che raggiunge efficacemente la quantizzazione W(1+1)A4. Inizialmente, stabilisce un modello quantizzato di alta qualità attraverso la quantizzazione post-addestramento (PTQ). Successivamente, quantizza i pesi binarizzati, le bitmap per gruppi e i parametri di quantizzazione mediante distillazione layer-wise, mantenendo le attivazioni a precisione completa. Infine, addestra fattori di quantizzazione delle attivazioni regolabili per convertire dinamicamente le attivazioni a 4 bit. Questo design separato minimizza l'interferenza tra la quantizzazione dei pesi e delle attivazioni, migliorando la stabilità dell'addestramento e l'accuratezza dell'inferenza. È degno di nota che LBLLM è stato addestrato con soli 0,016 miliardi di token su una singola GPU, superando le attuali tecniche di binarizzazione leader nelle configurazioni W2A4. I risultati sono stati condivisi su arXiv, identificatore arXiv:2604.19167v1, evidenziando progressi significativi nei metodi di compressione dei modelli di IA.

Fatti principali

LBLLM è un framework di binarizzazione leggera per modelli linguistici di grandi dimensioni
Utilizza una strategia di quantizzazione in tre fasi per la quantizzazione W(1+1)A4
Fase 1: Inizializza un modello quantizzato di alta qualità tramite PTQ
Fase 2: Quantizza pesi binarizzati, bitmap per gruppi e parametri attraverso distillazione layer-wise
Fase 3: Addestra fattori di quantizzazione delle attivazioni apprendibili per la quantizzazione delle attivazioni a 4 bit
Il design disaccoppiato mitiga l'interferenza tra la quantizzazione dei pesi e delle attivazioni
Addestrato con soli 0,016 miliardi di token utilizzando una singola GPU
Supera i metodi di binarizzazione all'avanguardia esistenti nelle configurazioni W2A4

Il Framework LBLLM Consente una Efficiente Binarizzazione dei Modelli Linguistici di Grandi Dimensioni per Ambienti con Risorse Limitare

Fatti principali

Entità

Istituzioni

Fonti