CERSA: Ottimizzazione Efficiente in Memoria tramite Adattamento del Sottospazio Principale
È stata introdotta una nuova tecnica di fine-tuning chiamata Cumulative Energy-Retaining Subspace Adaptation (CERSA) per ridurre al minimo l'uso di memoria durante l'adattamento di grandi modelli pre-addestrati. A differenza degli approcci esistenti di parameter-efficient fine-tuning (PEFT) come LoRA, che utilizzano aggiornamenti a basso rango che non catturano appieno le caratteristiche di modifica dei pesi, CERSA impiega la decomposizione ai valori singolari (SVD) per concentrarsi sulle componenti principali che rappresentano dal 90% al 95% dell'energia spettrale. Ottimizzando rappresentazioni a basso rango da questo sottospazio principale, CERSA riduce efficacemente il consumo di memoria colmando al contempo il divario di prestazioni associato a LoRA. Questo metodo elimina anche la necessità di memorizzare pesi congelati completi, rendendolo ideale per ambienti con risorse limitate. La ricerca è disponibile su arXiv con identificativo 2605.08174.
Fatti principali
- CERSA sta per Cumulative Energy-Retaining Subspace Adaptation.
- Utilizza la decomposizione ai valori singolari (SVD) per trattenere le componenti principali con il 90% al 95% di energia spettrale.
- Il metodo riduce il consumo di memoria rispetto a LoRA e ad altri metodi PEFT.
- Affronta il divario di prestazioni causato dagli aggiornamenti a basso rango in LoRA.
- L'articolo è pubblicato su arXiv con ID 2605.08174.
- CERSA ottimizza rappresentazioni a basso rango dal sottospazio principale.
- Elimina la necessità di memorizzare pesi congelati completi.
- L'approccio mira all'ottimizzazione efficiente in memoria di grandi modelli pre-addestrati.
Entità
Istituzioni
- arXiv