BDQ: Un Nuovo Metodo di Quantizzazione Post-Addestramento per LLM
Un nuovo articolo su arXiv (2605.18800) introduce la Quantizzazione Diagonale Bidirezionale (BDQ), un metodo di quantizzazione post-addestramento per modelli linguistici di grandi dimensioni (LLM). Gli autori modellano innanzitutto la relazione matematica tra errore di quantizzazione e outlier di attivazione, quindi propongono una metrica chiamata Flatness per quantificare la distribuzione degli outlier. Da ciò, derivano una soluzione teorica ottimale. BDQ affronta i pattern persistenti di outlier nei pesi e nelle attivazioni trasformati che degradano le prestazioni a bassa precisione di bit, offrendo un approccio innovativo per la compressione e l'accelerazione degli LLM.
Fatti principali
- ID articolo: arXiv:2605.18800
- Pubblicato su arXiv
- Introduce la metrica Flatness per la distribuzione degli outlier
- Propone la Quantizzazione Diagonale Bidirezionale (BDQ)
- Affronta gli outlier di attivazione nella quantizzazione degli LLM
- Deriva una soluzione teorica ottimale basata su Flatness
- Si concentra sulla quantizzazione post-addestramento
- Mira a migliorare l'inferenza degli LLM a precisione di bit inferiore
Entità
Istituzioni
- arXiv