LARS: Nuovo Metodo di Fine-Tuning Riduce la Memoria degli LLM del 33%
Un nuovo studio pubblicato su arXiv mette in discussione l'assunzione che i metodi di fine-tuning efficienti in termini di parametri (PEFT) come LoRA e IA3 siano efficienti in termini di memoria per l'adattamento di LLM su dispositivi. Gli autori introducono LARS (Low-memory Activation-Rank Subspace), che vincola il sottospazio di attivazione durante l'addestramento anziché i parametri del modello, disaccoppiando il consumo di memoria dalla lunghezza della sequenza. LARS riduce l'impronta di memoria in media del 33,54% rispetto ai metodi PEFT precedenti, risolvendo gli errori di memoria insufficiente sui dispositivi.
Fatti principali
- I metodi di fine-tuning efficienti in termini di parametri (PEFT) come LoRA e IA3 riducono i parametri addestrabili ma non sono efficienti in termini di memoria.
- I tensori intermedi nei metodi PEFT scalano linearmente con la lunghezza della sequenza, causando errori di memoria insufficiente sui dispositivi.
- LARS (Low-memory Activation-Rank Subspace) vincola il sottospazio di attivazione durante l'addestramento.
- LARS disaccoppia il consumo di memoria dalla lunghezza della sequenza.
- LARS riduce l'impronta di memoria in media del 33,54%.
- Lo studio è pubblicato su arXiv con ID 2604.22783.
- Il lavoro è mirato all'adattamento di LLM su dispositivi.
- I metodi PEFT precedenti applicano vincoli di basso rango ai parametri del modello.
Entità
Istituzioni
- arXiv