ARTFEED — Contemporary Art Intelligence

MIST: Rilevamento di DNN Trojanizzati tramite Regressione Spettrale

ai-technology · 2026-05-22

Un nuovo metodo di rilevamento Trojan per reti neurali profonde (DNN), chiamato MIST, è stato introdotto dai ricercatori. Questo approccio si concentra sul monitoraggio dei cambiamenti nelle rappresentazioni interne durante il processo di fine-tuning. Invece di ricostruire le condizioni del trigger, MIST valuta l'evoluzione benigna del modello analizzando gli spettri di pre-attivazione e identifica aggiornamenti con deviazioni spettrali che non si allineano a questa linea di base. Concettualizza il rilevamento Trojan come un problema di regressione riguardante gli aggiornamenti del modello. I test su quattro dataset e otto attacchi Trojan dimostrano che le distanze spettrali possono differenziare efficacemente tra aggiornamenti infetti da Trojan e fine-tuning pulito. MIST supera l'accuratezza di rilevamento esistente dopo un solo aggiornamento, senza richiedere conoscenza preliminare dei dati avvelenati o del trigger, affrontando così le vulnerabilità di sicurezza nei processi di fine-tuning evolutivo.

Fatti principali

  • MIST è un approccio di rilevamento Trojan per DNN
  • Analizza i cambiamenti nelle rappresentazioni interne durante il fine-tuning
  • Utilizza spettri di pre-attivazione per caratterizzare l'evoluzione benigna del modello
  • Segnala aggiornamenti con deviazioni spettrali incoerenti con il riferimento
  • Tratta il rilevamento Trojan come un problema di regressione
  • Valutato su quattro dataset e otto attacchi Trojan
  • Supera lo stato dell'arte dopo un singolo aggiornamento
  • Non richiede conoscenza dei dati avvelenati o del trigger

Entità

Fonti