Watermarking come Primitiva di Monitoraggio per Modelli Generativi
Un recente studio pubblicato su arXiv sostiene che il watermarking nei modelli generativi dovrebbe essere considerato una primitiva di monitoraggio anziché solo un mezzo per eludere il rilevamento. I ricercatori presentano un modello di minaccia basato sull'osservatore, indicando che anche il watermarking a zero bit consente l'attribuzione a livello di entità in scenari multi-chiave. Illustrano che, nel tempo, il monitoraggio esterno può svilupparsi da strutture statistiche coerenti e dipendenti dalla chiave, sebbene ciò possa essere attenuato da metodi non rilevabili o che preservano la distribuzione. I risultati evidenziano una tensione essenziale di duplice uso insita nella progettazione del watermark.
Fatti principali
- Il watermarking è proposto per la provenienza, l'attribuzione e il monitoraggio della sicurezza nei modelli generativi.
- Tipicamente valutato contro avversari che eludono il rilevamento o inducono falsi positivi a livello di singolo campione.
- L'articolo sostiene che il watermarking dovrebbe essere trattato come una primitiva di monitoraggio.
- Il monitoraggio interno è inevitabile date le chiavi e i messaggi di attribuzione per entità.
- Il modello di minaccia basato sull'osservatore consente l'aggregazione dei segnali di watermark attraverso gli output.
- Il watermarking a zero bit consente l'attribuzione in contesti multi-chiave.
- Il monitoraggio esterno può emergere nel tempo da strutture statistiche persistenti e dipendenti dalla chiave.
- Esiste una tensione di duplice uso tra monitoraggio ed elusione.
Entità
Istituzioni
- arXiv