La ricerca sfida la specializzazione degli esperti nei modelli Mixture of Experts, rivelando meccanismi di routing geometrici
Una recente indagine mette in discussione la visione tradizionale della specializzazione degli esperti all'interno dei framework Mixture of Experts (MoE), comunemente utilizzati nei grandi modelli linguistici. Lo studio rivela che i router MoE agiscono come mappature lineari, indicando che la similarità degli stati nascosti è sia essenziale che sufficiente per comprendere i modelli di utilizzo degli esperti. Ciò suggerisce che la specializzazione emerge dallo spazio di rappresentazione piuttosto che dalla struttura di routing stessa. L'analisi ha coinvolto cinque modelli pre-addestrati a livello di token e di sequenza. Inoltre, mostra che la perdita di bilanciamento del carico minimizza le direzioni condivise degli stati nascosti per preservare la diversità del routing, il che potrebbe chiarire perché la specializzazione collassa in determinate condizioni, come dimensioni ridotte dei batch. Nonostante queste intuizioni, i modelli di specializzazione nei MoE pre-addestrati rimangono difficili da interpretare per gli esseri umani. La sovrapposizione degli esperti tra diversi modelli che rispondono alle stesse domande non differisce significativamente dal caso casuale. I risultati, pubblicati come arXiv:2604.09780v1, contribuiscono al dibattito in corso riguardante l'interpretabilità e l'efficacia delle intricate architetture di reti neurali nei sistemi di IA.
Fatti principali
- I Mixture of Experts (MoE) sono onnipresenti nei grandi modelli linguistici
- I router MoE sono mappe lineari
- La similarità degli stati nascosti spiega la similarità nell'utilizzo degli esperti
- La specializzazione emerge dallo spazio di rappresentazione, non dall'architettura di routing
- L'analisi è stata condotta su cinque modelli pre-addestrati
- La perdita di bilanciamento del carico sopprime le direzioni condivise degli stati nascosti
- I modelli di specializzazione resistono all'interpretazione umana
- La sovrapposizione degli esperti tra modelli che rispondono alle stesse domande non è superiore al caso casuale
Entità
—