ARTFEED — Contemporary Art Intelligence

Il Framework LBLLM Consente una Efficiente Binarizzazione dei Modelli Linguistici di Grandi Dimensioni per Ambienti con Risorse Limitare

ai-technology · 2026-04-22

Un innovativo framework di binarizzazione leggera denominato LBLLM è stato introdotto per affrontare le sfide computazionali e di memoria nell'implementazione di modelli linguistici di grandi dimensioni in ambienti con risorse limitate. Questo framework utilizza un approccio di quantizzazione in tre fasi che raggiunge efficacemente la quantizzazione W(1+1)A4. Inizialmente, stabilisce un modello quantizzato di alta qualità attraverso la quantizzazione post-addestramento (PTQ). Successivamente, quantizza i pesi binarizzati, le bitmap per gruppi e i parametri di quantizzazione mediante distillazione layer-wise, mantenendo le attivazioni a precisione completa. Infine, addestra fattori di quantizzazione delle attivazioni regolabili per convertire dinamicamente le attivazioni a 4 bit. Questo design separato minimizza l'interferenza tra la quantizzazione dei pesi e delle attivazioni, migliorando la stabilità dell'addestramento e l'accuratezza dell'inferenza. È degno di nota che LBLLM è stato addestrato con soli 0,016 miliardi di token su una singola GPU, superando le attuali tecniche di binarizzazione leader nelle configurazioni W2A4. I risultati sono stati condivisi su arXiv, identificatore arXiv:2604.19167v1, evidenziando progressi significativi nei metodi di compressione dei modelli di IA.

Fatti principali

  • LBLLM è un framework di binarizzazione leggera per modelli linguistici di grandi dimensioni
  • Utilizza una strategia di quantizzazione in tre fasi per la quantizzazione W(1+1)A4
  • Fase 1: Inizializza un modello quantizzato di alta qualità tramite PTQ
  • Fase 2: Quantizza pesi binarizzati, bitmap per gruppi e parametri attraverso distillazione layer-wise
  • Fase 3: Addestra fattori di quantizzazione delle attivazioni apprendibili per la quantizzazione delle attivazioni a 4 bit
  • Il design disaccoppiato mitiga l'interferenza tra la quantizzazione dei pesi e delle attivazioni
  • Addestrato con soli 0,016 miliardi di token utilizzando una singola GPU
  • Supera i metodi di binarizzazione all'avanguardia esistenti nelle configurazioni W2A4

Entità

Istituzioni

  • arXiv

Fonti