ARTFEED — Contemporary Art Intelligence

La ricerca rivela come i modelli Mixture-of-Experts instradino le informazioni attraverso canali di controllo e contenuto

ai-technology · 2026-04-22

Uno studio recente presenta una nuova tecnica di scomposizione senza parametri per i modelli Mixture-of-Experts (MoE), esaminando sei architetture uniche. I risultati rivelano che lo stato nascosto di ogni strato si divide in due canali separati: uno per un segnale di controllo che influenza le scelte di instradamento e un altro per un canale di contenuto ortogonale che il router non può rilevare. Il canale di contenuto conserva attributi di superficie come la lingua, l'identità del token e la posizione, mentre il segnale di controllo rappresenta una funzione astratta che varia tra gli strati. A causa della bassa larghezza di banda delle decisioni di instradamento, questa divisione richiede una specializzazione compositiva tra gli strati. Sebbene i singoli esperti nei modelli mostrino polisemia, i percorsi che intraprendono diventano monosemantici, raggruppando i token per funzione semantica attraverso varie lingue e forme. Lo stesso token può percorrere percorsi diversi in base al suo contesto semantico. Questa ricerca è stata pubblicata su arXiv con l'identificatore 2604.17837v1.

Fatti principali

  • È stato introdotto un metodo di scomposizione senza parametri per i modelli Mixture-of-Experts
  • Il metodo divide lo stato nascosto di ogni strato in canali di controllo e contenuto
  • Nella ricerca sono state analizzate sei diverse architetture MoE
  • Le caratteristiche di superficie sono preservate nel canale di contenuto
  • Il segnale di controllo codifica una funzione astratta che ruota tra gli strati
  • Le decisioni di instradamento operano con bassa larghezza di banda
  • I singoli esperti rimangono polisemantici mentre i percorsi degli esperti diventano monosemantici
  • La ricerca è stata annunciata su arXiv con l'identificatore 2604.17837v1

Entità

Istituzioni

  • arXiv

Fonti