La regolarizzazione basata sulla salienza migliora la calibrazione della quantizzazione degli LLM
Un nuovo articolo su arXiv introduce SARQC, un framework che affronta il rischio di generalizzazione nella quantizzazione post-addestramento (PTQ) per modelli linguistici di grandi dimensioni (LLM). I metodi PTQ esistenti minimizzano l'errore di ricostruzione a livello di layer su dati di calibrazione limitati, il che può causare una divergenza dei pesi quantizzati da quelli originali e degradare le prestazioni downstream. SARQC aggiunge un termine di regolarizzazione basato sulla salienza che incoraggia i pesi quantizzati a rimanere vicini a quelli originali, migliorando la calibrazione. Il framework unifica la ricerca di scala e i metodi basati su Gram sotto un obiettivo regolarizzato. L'articolo è disponibile su https://arxiv.org/abs/2605.05693.
Fatti principali
- L'articolo arXiv 2605.05693 introduce SARQC
- SARQC sta per Saliency-Aware Regularized Quantization Calibration
- La PTQ viene utilizzata per distribuire LLM con vincoli di memoria e latenza
- I metodi PTQ esistenti minimizzano l'errore di ricostruzione a livello di layer su dati di calibrazione predeterminati
- Dati di calibrazione limitati possono causare rischio di generalizzazione e degrado delle prestazioni
- SARQC aggiunge un termine di regolarizzazione basato sulla salienza all'obiettivo PTQ
- Il termine di regolarizzazione incoraggia i pesi quantizzati a rimanere vicini a quelli originali
- Il framework unifica la ricerca di scala e i metodi basati su Gram
Entità
Istituzioni
- arXiv