InfoQuant: Ottimizzazione delle distribuzioni di attivazione per la quantizzazione a bassi bit dei LLM

publication · 2026-05-27

Un recente studio pubblicato su arXiv (2605.26175), intitolato 'InfoQuant: Shaping Activation Distributions for Low-Bit LLM Quantization', affronta il problema della quantizzazione a bassi bit delle attivazioni nei modelli linguistici di grandi dimensioni (LLM). I ricercatori sostengono che le attuali tecniche di quantizzazione post-addestramento (PTQ) non definiscono adeguatamente quali distribuzioni di attivazione siano favorevoli alla discretizzazione, causando errori di quantizzazione significativi nonostante attivazioni numeriche apparentemente più fluide. Propongono di ridefinire la trasformazione delle attivazioni come un progetto per distribuzioni orientate al quantizzatore ed esaminano gli errori di quantizzazione attraverso una lente teorica dell'informazione. I loro risultati indicano che le attivazioni ideali per la quantizzazione dovrebbero possedere sia un intervallo numerico ridotto che una variabilità adeguata.

Fatti principali

L'articolo è su arXiv con ID 2605.26175
Titolo: InfoQuant: Shaping Activation Distributions for Low-Bit LLM Quantization
Si concentra sulla quantizzazione a bassi bit delle attivazioni per LLM
Critica i metodi PTQ esistenti per non specificare distribuzioni facili da discretizzare
Propone un design di distribuzione orientato al quantizzatore
Utilizza un'analisi teorica dell'informazione dell'errore di quantizzazione
Intuizione chiave: le attivazioni necessitano di un intervallo numerico più piccolo e una dispersione sufficiente
Pubblicato su arXiv (probabilmente 2025, basato sul prefisso ID)

InfoQuant: Ottimizzazione delle distribuzioni di attivazione per la quantizzazione a bassi bit dei LLM

Fatti principali

Entità

Istituzioni

Fonti