MatryoshkaLoRA: Ottimizzazione Gerarchica a Basso Rango di Modelli Linguistici di Grandi Dimensioni
Un nuovo metodo chiamato MatryoshkaLoRA migliora l'ottimizzazione parametricamente efficiente di grandi modelli linguistici apprendendo rappresentazioni gerarchiche a basso rango. Le tecniche LoRA esistenti richiedono un rango statico predefinito, necessitando di ricerche esaustive a griglia per bilanciare efficienza e prestazioni. Soluzioni adattive al rango come DyLoRA campionano ranghi durante l'addestramento ma producono risultati subottimali a ranghi più alti a causa di segnali di gradiente inconsistenti attraverso la gerarchia dei ranghi. MatryoshkaLoRA inserisce una matrice diagonale fissa tra gli adattatori LoRA per consentire un apprendimento gerarchico accurato, affrontando l'inefficienza dei dati. L'approccio è ispirato alle matrioske, annidando rappresentazioni di vari ranghi. L'articolo è pubblicato su arXiv con identificatore 2605.07850.
Fatti principali
- MatryoshkaLoRA è un framework di addestramento per l'adattamento a basso rango (LoRA).
- Apprende rappresentazioni gerarchiche a basso rango per l'ottimizzazione di LLM.
- Il LoRA esistente richiede un rango statico predefinito e ricerche esaustive a griglia.
- DyLoRA campiona ranghi durante l'addestramento ma è subottimale a ranghi più alti.
- MatryoshkaLoRA inserisce una matrice diagonale fissa P tra gli adattatori LoRA.
- Il metodo è ispirato alle matrioske.
- L'articolo è su arXiv:2605.07850.
- Affronta l'inefficienza dei dati nei metodi adattivi al rango.
Entità
Istituzioni
- arXiv