BWLA: Pesi a 1 bit e Attivazioni a Basso Bit per LLM
Un nuovo framework chiamato BWLA (Binarized Weights and Low-bit Activations) è stato introdotto dai ricercatori per la quantizzazione post-addestramento nei modelli linguistici di grandi dimensioni (LLM). Questo metodo raggiunge una quantizzazione dei pesi a 1 bit e utilizza attivazioni a basso bit, come 6 bit, mantenendo un'elevata precisione. Le attuali tecniche di binarizzazione hanno difficoltà con le code pesanti delle attivazioni, che richiedono attivazioni ad alta precisione e ostacolano l'accelerazione end-to-end. BWLA impiega la Trasformazione Ortogonale-Kronecker (OKT) per creare una mappatura ortogonale attraverso la minimizzazione EM, trasformando i pesi unimodali in forme bimodali simmetriche e riducendo le code delle attivazioni e l'incoerenza. Inoltre, la Proiezione SVD Prossimale (PSP) facilita un raffinamento a basso rango leggero. Maggiori informazioni sono disponibili su arXiv:2605.00422v1.
Fatti principali
- BWLA sta per Binarized Weights and Low-bit Activations (Pesi Binarizzati e Attivazioni a Basso Bit)
- È un framework di quantizzazione post-addestramento per LLM
- Raggiunge una quantizzazione dei pesi a 1 bit con attivazioni a basso bit (es. 6 bit)
- Utilizza la Trasformazione Ortogonale-Kronecker (OKT) per la mappatura ortogonale tramite minimizzazione EM
- OKT converte i pesi unimodali in forme bimodali simmetriche
- OKT sopprime le code delle attivazioni e l'incoerenza
- Utilizza la Proiezione SVD Prossimale (PSP) per un raffinamento a basso rango leggero
- Articolo pubblicato su arXiv con ID 2605.00422v1
Entità
Istituzioni
- arXiv