Contributi Evanescenti: Un Framework Unificato per la Compressione Fluida delle DNN
L'articolo introduce i Contributi Evanescenti (VCON), un framework unificato per la compressione fluida e iterativa delle Reti Neurali Profonde (DNN). Le tecniche di compressione tradizionali come il pruning, la quantizzazione e la decomposizione a basso rango riducono memoria e calcolo, ma spesso causano un degrado dell'accuratezza, mitigato dalla compressione graduale iterativa. Tuttavia, metodi diversi richiedono approcci iterativi distinti e possono portare a un fine-tuning instabile. VCON affronta questo problema eseguendo in parallelo i modelli originale e compresso durante il fine-tuning, riducendo progressivamente il contributo del modello non compresso e aumentando quello del modello compresso. Questa combinazione affine consente una transizione fluida senza salti discontinui. Il framework è indipendente dal modello e applicabile a varie tecniche di compressione. L'articolo è pubblicato su arXiv con ID 2510.09696, con un tipo di annuncio replace-cross.
Fatti principali
- VCON è un framework unificato per la compressione fluida e iterativa delle DNN.
- Esegue i modelli originale e compresso in parallelo durante il fine-tuning.
- Il contributo del modello non compresso viene progressivamente ridotto.
- Il contributo del modello compresso viene gradualmente aumentato.
- Affronta il degrado dell'accuratezza dovuto a pruning, quantizzazione e decomposizione a basso rango.
- Il framework è indipendente dal modello e applicabile a varie tecniche di compressione.
- L'articolo è disponibile su arXiv con ID 2510.09696.
- Il tipo di annuncio è replace-cross.
Entità
Istituzioni
- arXiv