HELLoRA: Ottimizzazione Efficiente per Modelli Mixture-of-Experts

ai-technology · 2026-05-20

Una nuova tecnica chiamata HELLoRA (Hot-Experts Layer-level Low-Rank Adaptation) migliora l'efficienza della messa a punto dei parametri per i modelli Mixture-of-Experts (MoE). A differenza della LoRA convenzionale, che si concentra su architetture dense, HELLoRA integra moduli LoRA esclusivamente con gli esperti più attivati all'interno di ogni strato. Questo approccio minimizza sia i parametri addestrabili che i FLOP indotti dall'adattatore, migliorando al contempo le prestazioni downstream grazie a una regolarizzazione strutturata che mantiene la specializzazione degli esperti pre-addestrati. Quando combinata con LoRI per creare HELLoRI, che congela la proiezione verso l'alto e sparsifica la proiezione verso il basso, il metodo è stato valutato su tre backbone MoE: OlMoE-1B-7B, Mixtral-8x7B e Deep. Il documento di ricerca è disponibile su arXiv con ID 2605.18795.

Fatti principali

HELLoRA collega moduli LoRA solo agli esperti attivati più frequentemente in ogni strato.
Riduce i parametri addestrabili e i FLOP indotti dall'adattatore, migliorando al contempo le prestazioni downstream.
L'effetto è attribuito a una regolarizzazione strutturata che preserva la specializzazione degli esperti pre-addestrati.
HELLoRI combina HELLoRA con LoRI, congelando la proiezione verso l'alto e sparsificando la proiezione verso il basso.
Testato su tre backbone MoE: OlMoE-1B-7B, Mixtral-8x7B e Deep.
Il documento è su arXiv con ID 2605.18795.
LoRA domina la messa a punto efficiente dei parametri dei modelli linguistici di grandi dimensioni.
I modelli MoE scalano i parametri con un costo computazionale per token quasi costante.

HELLoRA: Ottimizzazione Efficiente per Modelli Mixture-of-Experts

Fatti principali

Entità

Istituzioni

Fonti