Comportamento del Router Mixtral MoE sotto Prompt Benigni e Dannosi

ai-technology · 2026-05-26

Un articolo di ricerca esamina il comportamento di routing del Mixtral 8x7B-Instruct, un modello linguistico sparso a miscela di esperti, in risposta a prompt sia benigni che dannosi. I ricercatori hanno utilizzato segnali basati sull'attivazione e sul gradiente, rivelando che l'uso degli esperti basato sull'attivazione è esteso e segue una distribuzione a coda lunga, mentre l'importanza basata sul gradiente è più concentrata. Valutando a livello di esperto, i gruppi che rispondono a prompt benigni e dannosi mostrano una leggera separazione. In termini di analisi per strato, il routing basato sull'attivazione è particolarmente selettivo negli strati 8-15, mentre l'importanza basata sul gradiente è concentrata negli strati finali. L'articolo completo è disponibile su arXiv.

Fatti principali

Studio del comportamento di routing del Mixtral 8x7B-Instruct
Utilizza segnali basati sull'attivazione e sul gradiente
L'uso degli esperti basato sull'attivazione è ampio e a coda lunga
L'importanza basata sul gradiente è concentrata
I gruppi di prompt benigni e dannosi mostrano una modesta separazione a livello di esperto
Il routing basato sull'attivazione è più selettivo negli strati 8-15
L'importanza basata sul gradiente è concentrata negli strati finali
Articolo disponibile su arXiv

Comportamento del Router Mixtral MoE sotto Prompt Benigni e Dannosi

Fatti principali

Entità

Istituzioni

Fonti