ARTFEED — Contemporary Art Intelligence

Sparse Backdoor: Attacco alla Catena di Fornitura Provabilmente Indistinguibile per Classificatori di Immagini

ai-technology · 2026-05-07

Un nuovo attacco alla catena di fornitura chiamato Sparse Backdoor è stato sviluppato da ricercatori, in grado di incorporare una backdoor indistinguibile in classificatori di immagini pre-addestrati, come reti convoluzionali e Vision Transformers. Questo metodo introduce una perturbazione sparsa strutturata diretta casualmente in un numero limitato di colonne all'interno di ogni strato completamente connesso, inviando un segnale trigger a una classe target selezionata da un avversario. Un dither gaussiano isotropico indipendente maschera la perturbazione, creando una distribuzione di riferimento pulita basata sui pesi pre-addestrati, che consente una formale indistinguibilità. Gli autori dimostrano che differenziare il modello infetto da backdoor da questo riferimento è almeno tanto difficile quanto rilevare Sparse PCA, un compito computazionalmente complesso. Questo attacco sottolinea nuove vulnerabilità di sicurezza nell'apprendimento profondo, sollevando preoccupazioni sulla sicurezza e l'affidabilità dell'IA.

Fatti principali

  • Sparse Backdoor è un attacco alla catena di fornitura su classificatori di immagini pre-addestrati.
  • Prende di mira reti convoluzionali e Vision Transformers.
  • L'attacco inietta una perturbazione sparsa strutturata negli strati completamente connessi.
  • Un dither gaussiano maschera la perturbazione e consente l'indistinguibilità formale.
  • Il riferimento con dither è funzionalmente equivalente al classificatore originale sotto una condizione di margine.
  • Rilevare la backdoor è almeno tanto difficile quanto il rilevamento di Sparse PCA.
  • L'attacco propaga un segnale trigger a una classe target scelta dall'avversario.
  • L'articolo è pubblicato su arXiv con ID 2605.04209.

Entità

Istituzioni

  • arXiv

Fonti