Proposto un Framework di Deep Learning per il Rilevamento di Deepfake di Suoni Ambientali

ai-technology · 2026-04-22

È stato introdotto un framework di deep learning per il rilevamento di deepfake di suoni ambientali (ESDD), focalizzato sull'identificazione di registrazioni audio contenenti scene o eventi sonori falsi. Esperimenti approfonditi hanno esplorato l'impatto di singoli spettrogrammi, varie architetture di rete, modelli pre-addestrati e ensemble sulle prestazioni del compito ESDD. I risultati ottenuti dai dataset di riferimento EnvSDD e ESDD-Challenge-TestSet suggeriscono che il rilevamento di audio deepfake per scene sonore ed eventi sonori dovrebbe essere trattato come compiti separati. L'approccio di fine-tuning di un modello pre-addestrato si è dimostrato più efficace rispetto all'addestramento da zero per il compito ESDD. Il modello con le migliori prestazioni è stato sottoposto a fine-tuning a partire dal modello pre-addestrato WavLM utilizzando una strategia di addestramento in tre fasi proposta. Questa ricerca affronta la crescente preoccupazione riguardo ai deepfake audio in contesti ambientali, fornendo una base metodologica per il rilevamento. Il documento è disponibile su arXiv con l'identificatore 2604.19652v1, classificato come annuncio incrociato. Il lavoro contribuisce al campo della forensica audio offrendo un framework specializzato per la verifica dei suoni ambientali.

Fatti principali

È stato proposto un framework di deep learning per il rilevamento di deepfake di suoni ambientali (ESDD).
Sono stati condotti esperimenti approfonditi utilizzando spettrogrammi, architetture di rete e modelli pre-addestrati.
I dataset di riferimento utilizzati includono EnvSDD e ESDD-Challenge-TestSet.
Il rilevamento di audio deepfake per scene sonore ed eventi sonori dovrebbe essere considerato come compiti individuali.
Il fine-tuning di un modello pre-addestrato è più efficace dell'addestramento da zero per l'ESDD.
Il modello migliore è stato sottoposto a fine-tuning a partire dal modello pre-addestrato WavLM.
È stata proposta una strategia di addestramento in tre fasi per il modello.
Il documento è disponibile su arXiv con l'identificatore 2604.19652v1.

Proposto un Framework di Deep Learning per il Rilevamento di Deepfake di Suoni Ambientali

Fatti principali

Entità

Istituzioni

Fonti