La ricerca rivela come i modelli Mixture-of-Experts instradino le informazioni attraverso canali di controllo e contenuto

ai-technology · 2026-04-22

Uno studio recente presenta una nuova tecnica di scomposizione senza parametri per i modelli Mixture-of-Experts (MoE), esaminando sei architetture uniche. I risultati rivelano che lo stato nascosto di ogni strato si divide in due canali separati: uno per un segnale di controllo che influenza le scelte di instradamento e un altro per un canale di contenuto ortogonale che il router non può rilevare. Il canale di contenuto conserva attributi di superficie come la lingua, l'identità del token e la posizione, mentre il segnale di controllo rappresenta una funzione astratta che varia tra gli strati. A causa della bassa larghezza di banda delle decisioni di instradamento, questa divisione richiede una specializzazione compositiva tra gli strati. Sebbene i singoli esperti nei modelli mostrino polisemia, i percorsi che intraprendono diventano monosemantici, raggruppando i token per funzione semantica attraverso varie lingue e forme. Lo stesso token può percorrere percorsi diversi in base al suo contesto semantico. Questa ricerca è stata pubblicata su arXiv con l'identificatore 2604.17837v1.

Fatti principali

È stato introdotto un metodo di scomposizione senza parametri per i modelli Mixture-of-Experts
Il metodo divide lo stato nascosto di ogni strato in canali di controllo e contenuto
Nella ricerca sono state analizzate sei diverse architetture MoE
Le caratteristiche di superficie sono preservate nel canale di contenuto
Il segnale di controllo codifica una funzione astratta che ruota tra gli strati
Le decisioni di instradamento operano con bassa larghezza di banda
I singoli esperti rimangono polisemantici mentre i percorsi degli esperti diventano monosemantici
La ricerca è stata annunciata su arXiv con l'identificatore 2604.17837v1

La ricerca rivela come i modelli Mixture-of-Experts instradino le informazioni attraverso canali di controllo e contenuto

Fatti principali

Entità

Istituzioni

Fonti