HELLoRA: Ottimizzazione Efficiente per Modelli Mixture-of-Experts
Una nuova tecnica chiamata HELLoRA (Hot-Experts Layer-level Low-Rank Adaptation) migliora l'efficienza della messa a punto dei parametri per i modelli Mixture-of-Experts (MoE). A differenza della LoRA convenzionale, che si concentra su architetture dense, HELLoRA integra moduli LoRA esclusivamente con gli esperti più attivati all'interno di ogni strato. Questo approccio minimizza sia i parametri addestrabili che i FLOP indotti dall'adattatore, migliorando al contempo le prestazioni downstream grazie a una regolarizzazione strutturata che mantiene la specializzazione degli esperti pre-addestrati. Quando combinata con LoRI per creare HELLoRI, che congela la proiezione verso l'alto e sparsifica la proiezione verso il basso, il metodo è stato valutato su tre backbone MoE: OlMoE-1B-7B, Mixtral-8x7B e Deep. Il documento di ricerca è disponibile su arXiv con ID 2605.18795.
Fatti principali
- HELLoRA collega moduli LoRA solo agli esperti attivati più frequentemente in ogni strato.
- Riduce i parametri addestrabili e i FLOP indotti dall'adattatore, migliorando al contempo le prestazioni downstream.
- L'effetto è attribuito a una regolarizzazione strutturata che preserva la specializzazione degli esperti pre-addestrati.
- HELLoRI combina HELLoRA con LoRI, congelando la proiezione verso l'alto e sparsificando la proiezione verso il basso.
- Testato su tre backbone MoE: OlMoE-1B-7B, Mixtral-8x7B e Deep.
- Il documento è su arXiv con ID 2605.18795.
- LoRA domina la messa a punto efficiente dei parametri dei modelli linguistici di grandi dimensioni.
- I modelli MoE scalano i parametri con un costo computazionale per token quasi costante.
Entità
Istituzioni
- arXiv