ARTFEED — Contemporary Art Intelligence

LARS: Nuovo Metodo di Fine-Tuning Riduce la Memoria degli LLM del 33%

ai-technology · 2026-04-29

Un nuovo studio pubblicato su arXiv mette in discussione l'assunzione che i metodi di fine-tuning efficienti in termini di parametri (PEFT) come LoRA e IA3 siano efficienti in termini di memoria per l'adattamento di LLM su dispositivi. Gli autori introducono LARS (Low-memory Activation-Rank Subspace), che vincola il sottospazio di attivazione durante l'addestramento anziché i parametri del modello, disaccoppiando il consumo di memoria dalla lunghezza della sequenza. LARS riduce l'impronta di memoria in media del 33,54% rispetto ai metodi PEFT precedenti, risolvendo gli errori di memoria insufficiente sui dispositivi.

Fatti principali

  • I metodi di fine-tuning efficienti in termini di parametri (PEFT) come LoRA e IA3 riducono i parametri addestrabili ma non sono efficienti in termini di memoria.
  • I tensori intermedi nei metodi PEFT scalano linearmente con la lunghezza della sequenza, causando errori di memoria insufficiente sui dispositivi.
  • LARS (Low-memory Activation-Rank Subspace) vincola il sottospazio di attivazione durante l'addestramento.
  • LARS disaccoppia il consumo di memoria dalla lunghezza della sequenza.
  • LARS riduce l'impronta di memoria in media del 33,54%.
  • Lo studio è pubblicato su arXiv con ID 2604.22783.
  • Il lavoro è mirato all'adattamento di LLM su dispositivi.
  • I metodi PEFT precedenti applicano vincoli di basso rango ai parametri del modello.

Entità

Istituzioni

  • arXiv

Fonti