Watermarking come Primitiva di Monitoraggio per Modelli Generativi

publication · 2026-05-14

Un recente studio pubblicato su arXiv sostiene che il watermarking nei modelli generativi dovrebbe essere considerato una primitiva di monitoraggio anziché solo un mezzo per eludere il rilevamento. I ricercatori presentano un modello di minaccia basato sull'osservatore, indicando che anche il watermarking a zero bit consente l'attribuzione a livello di entità in scenari multi-chiave. Illustrano che, nel tempo, il monitoraggio esterno può svilupparsi da strutture statistiche coerenti e dipendenti dalla chiave, sebbene ciò possa essere attenuato da metodi non rilevabili o che preservano la distribuzione. I risultati evidenziano una tensione essenziale di duplice uso insita nella progettazione del watermark.

Fatti principali

Il watermarking è proposto per la provenienza, l'attribuzione e il monitoraggio della sicurezza nei modelli generativi.
Tipicamente valutato contro avversari che eludono il rilevamento o inducono falsi positivi a livello di singolo campione.
L'articolo sostiene che il watermarking dovrebbe essere trattato come una primitiva di monitoraggio.
Il monitoraggio interno è inevitabile date le chiavi e i messaggi di attribuzione per entità.
Il modello di minaccia basato sull'osservatore consente l'aggregazione dei segnali di watermark attraverso gli output.
Il watermarking a zero bit consente l'attribuzione in contesti multi-chiave.
Il monitoraggio esterno può emergere nel tempo da strutture statistiche persistenti e dipendenti dalla chiave.
Esiste una tensione di duplice uso tra monitoraggio ed elusione.

Watermarking come Primitiva di Monitoraggio per Modelli Generativi

Fatti principali

Entità

Istituzioni

Fonti