Sparse Backdoor: Attacco alla Catena di Fornitura Provabilmente Indistinguibile per Classificatori di Immagini

ai-technology · 2026-05-07

Un nuovo attacco alla catena di fornitura chiamato Sparse Backdoor è stato sviluppato da ricercatori, in grado di incorporare una backdoor indistinguibile in classificatori di immagini pre-addestrati, come reti convoluzionali e Vision Transformers. Questo metodo introduce una perturbazione sparsa strutturata diretta casualmente in un numero limitato di colonne all'interno di ogni strato completamente connesso, inviando un segnale trigger a una classe target selezionata da un avversario. Un dither gaussiano isotropico indipendente maschera la perturbazione, creando una distribuzione di riferimento pulita basata sui pesi pre-addestrati, che consente una formale indistinguibilità. Gli autori dimostrano che differenziare il modello infetto da backdoor da questo riferimento è almeno tanto difficile quanto rilevare Sparse PCA, un compito computazionalmente complesso. Questo attacco sottolinea nuove vulnerabilità di sicurezza nell'apprendimento profondo, sollevando preoccupazioni sulla sicurezza e l'affidabilità dell'IA.

Fatti principali

Sparse Backdoor è un attacco alla catena di fornitura su classificatori di immagini pre-addestrati.
Prende di mira reti convoluzionali e Vision Transformers.
L'attacco inietta una perturbazione sparsa strutturata negli strati completamente connessi.
Un dither gaussiano maschera la perturbazione e consente l'indistinguibilità formale.
Il riferimento con dither è funzionalmente equivalente al classificatore originale sotto una condizione di margine.
Rilevare la backdoor è almeno tanto difficile quanto il rilevamento di Sparse PCA.
L'attacco propaga un segnale trigger a una classe target scelta dall'avversario.
L'articolo è pubblicato su arXiv con ID 2605.04209.

Sparse Backdoor: Attacco alla Catena di Fornitura Provabilmente Indistinguibile per Classificatori di Immagini

Fatti principali

Entità

Istituzioni

Fonti