PARA: Compressione di LoRA senza dati tramite allocazione adattiva dei ranghi
arXiv:2604.27796 introduce Post-Optimization Adaptive Rank Allocation (PARA), un metodo senza dati per comprimere modelli Low-Rank Adaptation (LoRA) potando i ranghi utilizzando la decomposizione ai valori singolari con una soglia globale. A differenza del LoRA standard che utilizza un rango uniforme su tutti i livelli, PARA alloca ranghi non uniformi basati sull'importanza spettrale a livello di strato, riducendo il numero di parametri del 75-90% mantenendo le prestazioni predittive. Come tecnica post-hoc, evita modifiche all'addestramento e instabilità comuni nelle architetture dinamiche. Il metodo si integra perfettamente nei pipeline di fine-tuning esistenti senza richiedere dati aggiuntivi o riaddestramento. I risultati empirici dimostrano una compressione significativa con una perdita di accuratezza minima, affrontando la ridondanza dei parametri nei grandi modelli di base.
Fatti principali
- PARA è un metodo di compressione senza dati per LoRA
- Utilizza la decomposizione ai valori singolari con soglia globale
- Alloca ranghi non uniformi basati sull'importanza spettrale a livello di strato
- Riduce il numero di parametri del 75-90%
- Preserva le prestazioni predittive
- Metodo post-hoc che evita modifiche all'addestramento
- Si integra nei pipeline di fine-tuning esistenti
- Affronta la ridondanza dei parametri nei modelli di base
Entità
—