WaveGuard: Difendere i Modelli Text-to-Image dalla Distillazione della Conoscenza
Un nuovo framework chiamato WaveGuard mira a proteggere i modelli generativi text-to-image a pesi chiusi dalla distillazione non autorizzata della conoscenza. Gli attaccanti possono interrogare le API, raccogliere immagini sintetiche e addestrare modelli sostitutivi. WaveGuard utilizza un generatore a passaggio singolo sensibile alla frequenza per perturbare gli output entro un budget specificato dall'utente, preservando la fedeltà visiva e prevenendo il furto del modello.
Fatti principali
- I servizi generativi a pesi chiusi vengono distribuiti tramite API basate su query.
- Gli attaccanti possono interrogare ripetutamente le API per raccogliere immagini sintetiche per addestrare modelli sostitutivi.
- WaveGuard è un framework di protezione basato su generatore a passaggio singolo.
- WaveGuard opera entro un budget di perturbazione specificato dall'utente.
- WaveGuard impiega una perturbazione sensibile alla frequenza.
- La difesa mira a preservare la fedeltà visiva delle immagini rilasciate.
- Il framework si adatta efficientemente al rilascio di grandi volumi di output.
- L'articolo è su arXiv con ID 2605.22060.
Entità
Istituzioni
- arXiv