XAttnMark: Watermarking Audio tramite Attenzione Incrociata per l'IA Generativa
I ricercatori hanno introdotto XAttnMark (Cross-Attention Robust Audio Watermark), un metodo basato su reti neurali per incorporare filigrane impercettibili nell'audio, affrontando problemi di copyright e deepfake. Il sistema utilizza una condivisione parziale dei parametri tra generatore e rilevatore, un meccanismo di attenzione incrociata per il recupero del messaggio e un modulo di condizionamento temporale. Una perdita di mascheramento tempo-frequenza allineata psicoacusticamente migliora l'impercettibilità. Il metodo mira a ottimizzare congiuntamente il rilevamento robusto e l'attribuzione accurata, superando i limiti delle tecniche precedenti come WavMark e AudioSeal.
Fatti principali
- XAttnMark sta per Cross-Attention Robust Audio Watermark.
- È stato introdotto nell'articolo arXiv 2502.04230.
- Il metodo affronta la violazione del copyright e l'audio deepfake.
- Utilizza una condivisione parziale dei parametri tra generatore e rilevatore.
- Un meccanismo di attenzione incrociata consente un recupero efficiente del messaggio.
- Un modulo di condizionamento temporale migliora la distribuzione del messaggio.
- Una perdita di mascheramento TF allineata psicoacusticamente cattura il mascheramento di frequenza.
- I metodi precedenti includono WavMark e AudioSeal.
Entità
Istituzioni
- arXiv