MIST: Rilevamento di DNN Trojanizzati tramite Regressione Spettrale
Un nuovo metodo di rilevamento Trojan per reti neurali profonde (DNN), chiamato MIST, è stato introdotto dai ricercatori. Questo approccio si concentra sul monitoraggio dei cambiamenti nelle rappresentazioni interne durante il processo di fine-tuning. Invece di ricostruire le condizioni del trigger, MIST valuta l'evoluzione benigna del modello analizzando gli spettri di pre-attivazione e identifica aggiornamenti con deviazioni spettrali che non si allineano a questa linea di base. Concettualizza il rilevamento Trojan come un problema di regressione riguardante gli aggiornamenti del modello. I test su quattro dataset e otto attacchi Trojan dimostrano che le distanze spettrali possono differenziare efficacemente tra aggiornamenti infetti da Trojan e fine-tuning pulito. MIST supera l'accuratezza di rilevamento esistente dopo un solo aggiornamento, senza richiedere conoscenza preliminare dei dati avvelenati o del trigger, affrontando così le vulnerabilità di sicurezza nei processi di fine-tuning evolutivo.
Fatti principali
- MIST è un approccio di rilevamento Trojan per DNN
- Analizza i cambiamenti nelle rappresentazioni interne durante il fine-tuning
- Utilizza spettri di pre-attivazione per caratterizzare l'evoluzione benigna del modello
- Segnala aggiornamenti con deviazioni spettrali incoerenti con il riferimento
- Tratta il rilevamento Trojan come un problema di regressione
- Valutato su quattro dataset e otto attacchi Trojan
- Supera lo stato dell'arte dopo un singolo aggiornamento
- Non richiede conoscenza dei dati avvelenati o del trigger
Entità
—