Fusione Auto-Supervisionata per il Rilevamento di Deepfake Audio
Un nuovo framework di rilevamento deepfake utilizza rappresentazioni di fusione auto-supervisionate per identificare audio manipolato nel dataset CompSpoofV2. L'approccio a doppio ramo modella congiuntamente parlato e suoni ambientali utilizzando i modelli pre-addestrati XLS-R e BEATs. Una testa di matching con normalizzazione statistica e attenzione incrociata multi-testa consente lo scambio di informazioni tra i componenti. Il metodo è stato presentato alla challenge ESDD2 2026.
Fatti principali
- Presentato alla Environment-Aware Speech and Sound Deepfake Detection Challenge (ESDD2) 2026
- Utilizza il dataset CompSpoofV2
- Framework a doppio ramo per parlato e suoni ambientali
- XLS-R pre-addestrato per il parlato, BEATs per i suoni ambientali
- Testa di matching con normalizzazione statistica e interazione delle rappresentazioni
- Attenzione incrociata multi-testa per lo scambio di informazioni
- Connessioni residue utilizzate nell'elaborazione
- Affronta il rilevamento deepfake a livello di componente
Entità
Istituzioni
- arXiv