ARTFEED — Contemporary Art Intelligence

Fusione Auto-Supervisionata per il Rilevamento di Deepfake Audio

ai-technology · 2026-05-07

Un nuovo framework di rilevamento deepfake utilizza rappresentazioni di fusione auto-supervisionate per identificare audio manipolato nel dataset CompSpoofV2. L'approccio a doppio ramo modella congiuntamente parlato e suoni ambientali utilizzando i modelli pre-addestrati XLS-R e BEATs. Una testa di matching con normalizzazione statistica e attenzione incrociata multi-testa consente lo scambio di informazioni tra i componenti. Il metodo è stato presentato alla challenge ESDD2 2026.

Fatti principali

  • Presentato alla Environment-Aware Speech and Sound Deepfake Detection Challenge (ESDD2) 2026
  • Utilizza il dataset CompSpoofV2
  • Framework a doppio ramo per parlato e suoni ambientali
  • XLS-R pre-addestrato per il parlato, BEATs per i suoni ambientali
  • Testa di matching con normalizzazione statistica e interazione delle rappresentazioni
  • Attenzione incrociata multi-testa per lo scambio di informazioni
  • Connessioni residue utilizzate nell'elaborazione
  • Affronta il rilevamento deepfake a livello di componente

Entità

Istituzioni

  • arXiv

Fonti