Sparse Backdoor: Attacco alla Catena di Fornitura Provabilmente Indistinguibile per Classificatori di Immagini
Un nuovo attacco alla catena di fornitura chiamato Sparse Backdoor è stato sviluppato da ricercatori, in grado di incorporare una backdoor indistinguibile in classificatori di immagini pre-addestrati, come reti convoluzionali e Vision Transformers. Questo metodo introduce una perturbazione sparsa strutturata diretta casualmente in un numero limitato di colonne all'interno di ogni strato completamente connesso, inviando un segnale trigger a una classe target selezionata da un avversario. Un dither gaussiano isotropico indipendente maschera la perturbazione, creando una distribuzione di riferimento pulita basata sui pesi pre-addestrati, che consente una formale indistinguibilità. Gli autori dimostrano che differenziare il modello infetto da backdoor da questo riferimento è almeno tanto difficile quanto rilevare Sparse PCA, un compito computazionalmente complesso. Questo attacco sottolinea nuove vulnerabilità di sicurezza nell'apprendimento profondo, sollevando preoccupazioni sulla sicurezza e l'affidabilità dell'IA.
Fatti principali
- Sparse Backdoor è un attacco alla catena di fornitura su classificatori di immagini pre-addestrati.
- Prende di mira reti convoluzionali e Vision Transformers.
- L'attacco inietta una perturbazione sparsa strutturata negli strati completamente connessi.
- Un dither gaussiano maschera la perturbazione e consente l'indistinguibilità formale.
- Il riferimento con dither è funzionalmente equivalente al classificatore originale sotto una condizione di margine.
- Rilevare la backdoor è almeno tanto difficile quanto il rilevamento di Sparse PCA.
- L'attacco propaga un segnale trigger a una classe target scelta dall'avversario.
- L'articolo è pubblicato su arXiv con ID 2605.04209.
Entità
Istituzioni
- arXiv