XAttnMark: Watermarking Audio tramite Attenzione Incrociata per l'IA Generativa

ai-technology · 2026-05-25

I ricercatori hanno introdotto XAttnMark (Cross-Attention Robust Audio Watermark), un metodo basato su reti neurali per incorporare filigrane impercettibili nell'audio, affrontando problemi di copyright e deepfake. Il sistema utilizza una condivisione parziale dei parametri tra generatore e rilevatore, un meccanismo di attenzione incrociata per il recupero del messaggio e un modulo di condizionamento temporale. Una perdita di mascheramento tempo-frequenza allineata psicoacusticamente migliora l'impercettibilità. Il metodo mira a ottimizzare congiuntamente il rilevamento robusto e l'attribuzione accurata, superando i limiti delle tecniche precedenti come WavMark e AudioSeal.

Fatti principali

XAttnMark sta per Cross-Attention Robust Audio Watermark.
È stato introdotto nell'articolo arXiv 2502.04230.
Il metodo affronta la violazione del copyright e l'audio deepfake.
Utilizza una condivisione parziale dei parametri tra generatore e rilevatore.
Un meccanismo di attenzione incrociata consente un recupero efficiente del messaggio.
Un modulo di condizionamento temporale migliora la distribuzione del messaggio.
Una perdita di mascheramento TF allineata psicoacusticamente cattura il mascheramento di frequenza.
I metodi precedenti includono WavMark e AudioSeal.

XAttnMark: Watermarking Audio tramite Attenzione Incrociata per l'IA Generativa

Fatti principali

Entità

Istituzioni

Fonti