ARTFEED — Contemporary Art Intelligence

Metodo Post-Addestramento Converte LLM Densi in Architetture MoE Sparse

ai-technology · 2026-04-25

Un innovativo quadro analitico è stato introdotto da ricercatori che trasforma le reti feed-forward (FFN) nei modelli linguistici di grandi dimensioni (LLM) in architetture sparse Mixture-of-Experts (MoE), utilizzando solo un dataset di calibrazione limitato. Esaminando i pattern di attivazione dei neuroni, il metodo classifica i neuroni in esperti condivisi costantemente attivi ed esperti instradati condizionatamente attivi, creando successivamente un router basato su statistiche rappresentative dei neuroni. Ciò consente un'implementazione immediata o un opzionale fine-tuning leggero, evitando la necessità di un riaddestramento esteso su centinaia di miliardi di token. La tecnica è applicabile sia a modelli densi che a modelli MoE esistenti per la sparsità gerarchica. Sebbene il ridimensionamento degli LLM migliori le prestazioni, aumenta anche i costi di inferenza, principalmente a causa delle FFN, che consumano la maggior parte delle risorse computazionali. Le architetture MoE mitigano questi costi attraverso l'attivazione sparsa, ma trasformare modelli densi in MoE richiede solitamente un riaddestramento significativo. Questo quadro risolve efficacemente quella sfida facilitando una conversione rapida con dati minimi.

Fatti principali

  • Il quadro ristruttura le FFN in architetture MoE sparse dopo l'addestramento
  • Utilizza solo un piccolo dataset di calibrazione
  • Analizza i pattern di attivazione dei neuroni per partizionare i neuroni in esperti condivisi e instradati
  • Router costruito analiticamente da statistiche rappresentative dei neuroni
  • Consente il deployment immediato o un opzionale fine-tuning leggero
  • Si applica a modelli densi e ricorsivamente a modelli MoE esistenti
  • Evita il riaddestramento su centinaia di miliardi di token
  • Riduce i costi di inferenza degli LLM attraverso l'attivazione sparsa

Entità

Istituzioni

  • arXiv

Fonti