La ricerca rivela come i modelli Mixture-of-Experts instradino le informazioni attraverso canali di controllo e contenuto
Uno studio recente presenta una nuova tecnica di scomposizione senza parametri per i modelli Mixture-of-Experts (MoE), esaminando sei architetture uniche. I risultati rivelano che lo stato nascosto di ogni strato si divide in due canali separati: uno per un segnale di controllo che influenza le scelte di instradamento e un altro per un canale di contenuto ortogonale che il router non può rilevare. Il canale di contenuto conserva attributi di superficie come la lingua, l'identità del token e la posizione, mentre il segnale di controllo rappresenta una funzione astratta che varia tra gli strati. A causa della bassa larghezza di banda delle decisioni di instradamento, questa divisione richiede una specializzazione compositiva tra gli strati. Sebbene i singoli esperti nei modelli mostrino polisemia, i percorsi che intraprendono diventano monosemantici, raggruppando i token per funzione semantica attraverso varie lingue e forme. Lo stesso token può percorrere percorsi diversi in base al suo contesto semantico. Questa ricerca è stata pubblicata su arXiv con l'identificatore 2604.17837v1.
Fatti principali
- È stato introdotto un metodo di scomposizione senza parametri per i modelli Mixture-of-Experts
- Il metodo divide lo stato nascosto di ogni strato in canali di controllo e contenuto
- Nella ricerca sono state analizzate sei diverse architetture MoE
- Le caratteristiche di superficie sono preservate nel canale di contenuto
- Il segnale di controllo codifica una funzione astratta che ruota tra gli strati
- Le decisioni di instradamento operano con bassa larghezza di banda
- I singoli esperti rimangono polisemantici mentre i percorsi degli esperti diventano monosemantici
- La ricerca è stata annunciata su arXiv con l'identificatore 2604.17837v1
Entità
Istituzioni
- arXiv