HTell: Rilevamento di Backdoor senza Dati tramite Sondaggio Randomico della Testa
Un nuovo metodo chiamato HTell rileva attacchi backdoor nelle reti neurali profonde senza richiedere dati puliti, gradienti del modello o ricostruzione del trigger. Funziona inserendo sonde latenti casuali nella testa di previsione del modello e analizzando le statistiche di risposta per classe, poiché i modelli compromessi mostrano una concentrazione anomala della risposta sulla classe target. HTell è consapevole dell'architettura e opera in scenari pratici di audit del modello. L'approccio è valutato su un benchmark su larga scala, dimostrando un rilevamento rapido e leggero.
Fatti principali
- HTell è un metodo di rilevamento backdoor per DNN.
- Utilizza il sondaggio randomico della testa senza dati o gradienti.
- I modelli compromessi mostrano una concentrazione anomala della risposta sulla classe target.
- HTell genera sonde latenti casuali consapevoli dell'architettura.
- Analizza le statistiche di risposta per classe.
- Non sono necessari dati puliti o surrogati.
- Non è richiesta la ricostruzione iterativa del trigger.
- Valutato su un benchmark su larga scala.
Entità
—