ARTFEED — Contemporary Art Intelligence

HELLoRA: Ottimizzazione Efficiente per Modelli Mixture-of-Experts

ai-technology · 2026-05-20

Una nuova tecnica chiamata HELLoRA (Hot-Experts Layer-level Low-Rank Adaptation) migliora l'efficienza della messa a punto dei parametri per i modelli Mixture-of-Experts (MoE). A differenza della LoRA convenzionale, che si concentra su architetture dense, HELLoRA integra moduli LoRA esclusivamente con gli esperti più attivati all'interno di ogni strato. Questo approccio minimizza sia i parametri addestrabili che i FLOP indotti dall'adattatore, migliorando al contempo le prestazioni downstream grazie a una regolarizzazione strutturata che mantiene la specializzazione degli esperti pre-addestrati. Quando combinata con LoRI per creare HELLoRI, che congela la proiezione verso l'alto e sparsifica la proiezione verso il basso, il metodo è stato valutato su tre backbone MoE: OlMoE-1B-7B, Mixtral-8x7B e Deep. Il documento di ricerca è disponibile su arXiv con ID 2605.18795.

Fatti principali

  • HELLoRA collega moduli LoRA solo agli esperti attivati più frequentemente in ogni strato.
  • Riduce i parametri addestrabili e i FLOP indotti dall'adattatore, migliorando al contempo le prestazioni downstream.
  • L'effetto è attribuito a una regolarizzazione strutturata che preserva la specializzazione degli esperti pre-addestrati.
  • HELLoRI combina HELLoRA con LoRI, congelando la proiezione verso l'alto e sparsificando la proiezione verso il basso.
  • Testato su tre backbone MoE: OlMoE-1B-7B, Mixtral-8x7B e Deep.
  • Il documento è su arXiv con ID 2605.18795.
  • LoRA domina la messa a punto efficiente dei parametri dei modelli linguistici di grandi dimensioni.
  • I modelli MoE scalano i parametri con un costo computazionale per token quasi costante.

Entità

Istituzioni

  • arXiv

Fonti