LARS: Nuovo Metodo di Fine-Tuning Riduce la Memoria degli LLM del 33%

ai-technology · 2026-04-29

Un nuovo studio pubblicato su arXiv mette in discussione l'assunzione che i metodi di fine-tuning efficienti in termini di parametri (PEFT) come LoRA e IA3 siano efficienti in termini di memoria per l'adattamento di LLM su dispositivi. Gli autori introducono LARS (Low-memory Activation-Rank Subspace), che vincola il sottospazio di attivazione durante l'addestramento anziché i parametri del modello, disaccoppiando il consumo di memoria dalla lunghezza della sequenza. LARS riduce l'impronta di memoria in media del 33,54% rispetto ai metodi PEFT precedenti, risolvendo gli errori di memoria insufficiente sui dispositivi.

Fatti principali

I metodi di fine-tuning efficienti in termini di parametri (PEFT) come LoRA e IA3 riducono i parametri addestrabili ma non sono efficienti in termini di memoria.
I tensori intermedi nei metodi PEFT scalano linearmente con la lunghezza della sequenza, causando errori di memoria insufficiente sui dispositivi.
LARS (Low-memory Activation-Rank Subspace) vincola il sottospazio di attivazione durante l'addestramento.
LARS disaccoppia il consumo di memoria dalla lunghezza della sequenza.
LARS riduce l'impronta di memoria in media del 33,54%.
Lo studio è pubblicato su arXiv con ID 2604.22783.
Il lavoro è mirato all'adattamento di LLM su dispositivi.
I metodi PEFT precedenti applicano vincoli di basso rango ai parametri del modello.

LARS: Nuovo Metodo di Fine-Tuning Riduce la Memoria degli LLM del 33%

Fatti principali

Entità

Istituzioni

Fonti