Nuovo Framework per il Rilevamento di Deepfake Audio-Visivi nel Canto

ai-technology · 2026-05-28

I ricercatori hanno identificato una debolezza critica nei metodi esistenti di rilevamento dei deepfake audio-visivi: falliscono quando applicati al canto. A differenza del parlato, dove i movimenti delle labbra e l'audio sono strettamente sincronizzati, il canto coinvolge una vocalizzazione ritmica che indebolisce questo accoppiamento cross-modale, causando un calo significativo delle prestazioni di rilevamento. Per affrontare questo problema, il team ha costruito il dataset Singing Head DeepFake (SHDF) utilizzando modelli generativi sensibili al ritmo, colmando una lacuna nei benchmark disponibili. Propongono anche un framework di rilevamento della contraffazione audio-visiva guidato da testo (T-AVFD) progettato per generalizzare sia negli scenari di parlato che di canto. T-AVFD include un apprenditore di pattern di autenticità facciale che allinea le caratteristiche facciali con descrizioni testuali a granularità multipla, e un modulo di apprendimento dei pesi differenziali multimodali che preserva le caratteristiche intrinseche. Il lavoro evidenzia un problema di domain shift nel rilevamento dei deepfake e offre una soluzione che sfrutta la guida testuale per apprendere pattern di autenticità generalizzabili. L'articolo è pubblicato su arXiv con identificatore 2605.27944.

Fatti principali

I metodi esistenti di rilevamento dei deepfake audio-visivi si basano su incongruenze cross-modali.
Il canto indebolisce l'accoppiamento tra audio e video, causando un domain shift.
Le prestazioni di rilevamento degradano sostanzialmente per i contenuti cantati.
Il dataset Singing Head DeepFake (SHDF) è stato creato utilizzando modelli generativi sensibili al ritmo.
Il framework T-AVFD è proposto per gestire sia scenari di parlato che di canto.
T-AVFD include un apprenditore di pattern di autenticità facciale e un modulo di apprendimento dei pesi differenziali multimodali.
L'apprenditore di pattern allinea le caratteristiche facciali con descrizioni testuali a granularità multipla.
L'articolo è disponibile su arXiv con ID 2605.27944.

Nuovo Framework per il Rilevamento di Deepfake Audio-Visivi nel Canto

Fatti principali

Entità

Istituzioni

Fonti