ARTFEED — Contemporary Art Intelligence

Comportamento del Router Mixtral MoE sotto Prompt Benigni e Dannosi

ai-technology · 2026-05-26

Un articolo di ricerca esamina il comportamento di routing del Mixtral 8x7B-Instruct, un modello linguistico sparso a miscela di esperti, in risposta a prompt sia benigni che dannosi. I ricercatori hanno utilizzato segnali basati sull'attivazione e sul gradiente, rivelando che l'uso degli esperti basato sull'attivazione è esteso e segue una distribuzione a coda lunga, mentre l'importanza basata sul gradiente è più concentrata. Valutando a livello di esperto, i gruppi che rispondono a prompt benigni e dannosi mostrano una leggera separazione. In termini di analisi per strato, il routing basato sull'attivazione è particolarmente selettivo negli strati 8-15, mentre l'importanza basata sul gradiente è concentrata negli strati finali. L'articolo completo è disponibile su arXiv.

Fatti principali

  • Studio del comportamento di routing del Mixtral 8x7B-Instruct
  • Utilizza segnali basati sull'attivazione e sul gradiente
  • L'uso degli esperti basato sull'attivazione è ampio e a coda lunga
  • L'importanza basata sul gradiente è concentrata
  • I gruppi di prompt benigni e dannosi mostrano una modesta separazione a livello di esperto
  • Il routing basato sull'attivazione è più selettivo negli strati 8-15
  • L'importanza basata sul gradiente è concentrata negli strati finali
  • Articolo disponibile su arXiv

Entità

Istituzioni

  • arXiv

Fonti