EdgeRazor: LLM leggeri tramite distillazione con quantizzazione a precisione mista
EdgeRazor è un framework leggero per il deployment di modelli linguistici di grandi dimensioni (LLM) su dispositivi con risorse limitate. Affronta i limiti dei metodi di quantizzazione esistenti—Quantizzazione Post-Addestramento (PTQ), Addestramento Consapevole della Quantizzazione (QAT) e Distillazione Consapevole della Quantizzazione—integrando la quantizzazione a precisione mista con la distillazione della conoscenza da un modello insegnante a piena precisione. A differenza degli approcci precedenti che selezionano manualmente le caratteristiche e si basano su dati specifici dell'insegnante, EdgeRazor automatizza il processo, riducendo i requisiti computazionali mantenendo l'accuratezza del modello. Il framework è descritto in un articolo su arXiv (2605.04062).
Fatti principali
- EdgeRazor è proposto per il deployment di LLM su dispositivi con risorse limitate.
- Utilizza la distillazione consapevole della quantizzazione a precisione mista.
- I metodi esistenti includono PTQ, QAT e Distillazione Consapevole della Quantizzazione.
- PTQ subisce un degrado al di sotto della precisione a 4 bit.
- QAT richiede risorse computazionali sostanziali.
- La Distillazione Consapevole della Quantizzazione seleziona manualmente le caratteristiche e dipende da dati specifici dell'insegnante.
- EdgeRazor automatizza la selezione delle caratteristiche e riduce i requisiti computazionali.
- L'articolo è disponibile su arXiv con ID 2605.04062.
Entità
Istituzioni
- arXiv