La regolarizzazione basata sulla salienza migliora la calibrazione della quantizzazione degli LLM

other · 2026-05-09

Un nuovo articolo su arXiv introduce SARQC, un framework che affronta il rischio di generalizzazione nella quantizzazione post-addestramento (PTQ) per modelli linguistici di grandi dimensioni (LLM). I metodi PTQ esistenti minimizzano l'errore di ricostruzione a livello di layer su dati di calibrazione limitati, il che può causare una divergenza dei pesi quantizzati da quelli originali e degradare le prestazioni downstream. SARQC aggiunge un termine di regolarizzazione basato sulla salienza che incoraggia i pesi quantizzati a rimanere vicini a quelli originali, migliorando la calibrazione. Il framework unifica la ricerca di scala e i metodi basati su Gram sotto un obiettivo regolarizzato. L'articolo è disponibile su https://arxiv.org/abs/2605.05693.

Fatti principali

L'articolo arXiv 2605.05693 introduce SARQC
SARQC sta per Saliency-Aware Regularized Quantization Calibration
La PTQ viene utilizzata per distribuire LLM con vincoli di memoria e latenza
I metodi PTQ esistenti minimizzano l'errore di ricostruzione a livello di layer su dati di calibrazione predeterminati
Dati di calibrazione limitati possono causare rischio di generalizzazione e degrado delle prestazioni
SARQC aggiunge un termine di regolarizzazione basato sulla salienza all'obiettivo PTQ
Il termine di regolarizzazione incoraggia i pesi quantizzati a rimanere vicini a quelli originali
Il framework unifica la ricerca di scala e i metodi basati su Gram

La regolarizzazione basata sulla salienza migliora la calibrazione della quantizzazione degli LLM

Fatti principali

Entità

Istituzioni

Fonti