Fusione Auto-Supervisionata per il Rilevamento di Deepfake Audio

ai-technology · 2026-05-07

Un nuovo framework di rilevamento deepfake utilizza rappresentazioni di fusione auto-supervisionate per identificare audio manipolato nel dataset CompSpoofV2. L'approccio a doppio ramo modella congiuntamente parlato e suoni ambientali utilizzando i modelli pre-addestrati XLS-R e BEATs. Una testa di matching con normalizzazione statistica e attenzione incrociata multi-testa consente lo scambio di informazioni tra i componenti. Il metodo è stato presentato alla challenge ESDD2 2026.

Fatti principali

Presentato alla Environment-Aware Speech and Sound Deepfake Detection Challenge (ESDD2) 2026
Utilizza il dataset CompSpoofV2
Framework a doppio ramo per parlato e suoni ambientali
XLS-R pre-addestrato per il parlato, BEATs per i suoni ambientali
Testa di matching con normalizzazione statistica e interazione delle rappresentazioni
Attenzione incrociata multi-testa per lo scambio di informazioni
Connessioni residue utilizzate nell'elaborazione
Affronta il rilevamento deepfake a livello di componente

Fusione Auto-Supervisionata per il Rilevamento di Deepfake Audio

Fatti principali

Entità

Istituzioni

Fonti