Comportamento del Router Mixtral MoE sotto Prompt Benigni e Dannosi
Un articolo di ricerca esamina il comportamento di routing del Mixtral 8x7B-Instruct, un modello linguistico sparso a miscela di esperti, in risposta a prompt sia benigni che dannosi. I ricercatori hanno utilizzato segnali basati sull'attivazione e sul gradiente, rivelando che l'uso degli esperti basato sull'attivazione è esteso e segue una distribuzione a coda lunga, mentre l'importanza basata sul gradiente è più concentrata. Valutando a livello di esperto, i gruppi che rispondono a prompt benigni e dannosi mostrano una leggera separazione. In termini di analisi per strato, il routing basato sull'attivazione è particolarmente selettivo negli strati 8-15, mentre l'importanza basata sul gradiente è concentrata negli strati finali. L'articolo completo è disponibile su arXiv.
Fatti principali
- Studio del comportamento di routing del Mixtral 8x7B-Instruct
- Utilizza segnali basati sull'attivazione e sul gradiente
- L'uso degli esperti basato sull'attivazione è ampio e a coda lunga
- L'importanza basata sul gradiente è concentrata
- I gruppi di prompt benigni e dannosi mostrano una modesta separazione a livello di esperto
- Il routing basato sull'attivazione è più selettivo negli strati 8-15
- L'importanza basata sul gradiente è concentrata negli strati finali
- Articolo disponibile su arXiv
Entità
Istituzioni
- arXiv