EdgeRazor: LLM leggeri tramite distillazione con quantizzazione a precisione mista

ai-technology · 2026-05-07

EdgeRazor è un framework leggero per il deployment di modelli linguistici di grandi dimensioni (LLM) su dispositivi con risorse limitate. Affronta i limiti dei metodi di quantizzazione esistenti—Quantizzazione Post-Addestramento (PTQ), Addestramento Consapevole della Quantizzazione (QAT) e Distillazione Consapevole della Quantizzazione—integrando la quantizzazione a precisione mista con la distillazione della conoscenza da un modello insegnante a piena precisione. A differenza degli approcci precedenti che selezionano manualmente le caratteristiche e si basano su dati specifici dell'insegnante, EdgeRazor automatizza il processo, riducendo i requisiti computazionali mantenendo l'accuratezza del modello. Il framework è descritto in un articolo su arXiv (2605.04062).

Fatti principali

EdgeRazor è proposto per il deployment di LLM su dispositivi con risorse limitate.
Utilizza la distillazione consapevole della quantizzazione a precisione mista.
I metodi esistenti includono PTQ, QAT e Distillazione Consapevole della Quantizzazione.
PTQ subisce un degrado al di sotto della precisione a 4 bit.
QAT richiede risorse computazionali sostanziali.
La Distillazione Consapevole della Quantizzazione seleziona manualmente le caratteristiche e dipende da dati specifici dell'insegnante.
EdgeRazor automatizza la selezione delle caratteristiche e riduce i requisiti computazionali.
L'articolo è disponibile su arXiv con ID 2605.04062.

EdgeRazor: LLM leggeri tramite distillazione con quantizzazione a precisione mista

Fatti principali

Entità

Istituzioni

Fonti