BWLA: Pesi a 1 bit e Attivazioni a Basso Bit per LLM

ai-technology · 2026-05-04

Un nuovo framework chiamato BWLA (Binarized Weights and Low-bit Activations) è stato introdotto dai ricercatori per la quantizzazione post-addestramento nei modelli linguistici di grandi dimensioni (LLM). Questo metodo raggiunge una quantizzazione dei pesi a 1 bit e utilizza attivazioni a basso bit, come 6 bit, mantenendo un'elevata precisione. Le attuali tecniche di binarizzazione hanno difficoltà con le code pesanti delle attivazioni, che richiedono attivazioni ad alta precisione e ostacolano l'accelerazione end-to-end. BWLA impiega la Trasformazione Ortogonale-Kronecker (OKT) per creare una mappatura ortogonale attraverso la minimizzazione EM, trasformando i pesi unimodali in forme bimodali simmetriche e riducendo le code delle attivazioni e l'incoerenza. Inoltre, la Proiezione SVD Prossimale (PSP) facilita un raffinamento a basso rango leggero. Maggiori informazioni sono disponibili su arXiv:2605.00422v1.

Fatti principali

BWLA sta per Binarized Weights and Low-bit Activations (Pesi Binarizzati e Attivazioni a Basso Bit)
È un framework di quantizzazione post-addestramento per LLM
Raggiunge una quantizzazione dei pesi a 1 bit con attivazioni a basso bit (es. 6 bit)
Utilizza la Trasformazione Ortogonale-Kronecker (OKT) per la mappatura ortogonale tramite minimizzazione EM
OKT converte i pesi unimodali in forme bimodali simmetriche
OKT sopprime le code delle attivazioni e l'incoerenza
Utilizza la Proiezione SVD Prossimale (PSP) per un raffinamento a basso rango leggero
Articolo pubblicato su arXiv con ID 2605.00422v1

BWLA: Pesi a 1 bit e Attivazioni a Basso Bit per LLM

Fatti principali

Entità

Istituzioni

Fonti