Studio rivela uno 'spostamento dello scetticismo': gli umani diffidano sempre più dell'audio reale dopo l'esposizione ai deepfake
Un'indagine approfondita sulla percezione dei deepfake audio, pubblicata su arXiv, indica un notevole 'spostamento dello scetticismo'. Mentre l'accuratezza dei partecipanti nell'identificare audio falsi è rimasta relativamente invariata (dal 72,9% al 71,2%), la loro fiducia nel parlato genuino è diminuita significativamente (dal 72,7% al 64,1%). La ricerca ha raccolto 35.532 valutazioni da 1.768 individui, valutando 138 diverse tecnologie di text-to-speech e conversione vocale. È emerso che i modelli linguistici commerciali e autoregressivi erano i più difficili da identificare (con un'accuratezza tra il 61,3% e il 65,9%), mentre i modelli tradizionali seq2seq e flow-matching erano più facilmente riconoscibili (con un'accuratezza dal 75,4% al 76,8%). Inoltre, un rilevatore di machine learning ha raggiunto oltre il 94,5% di accuratezza in tutti gli scenari, evidenziando che i deepfake riducono la fiducia nell'audio reale piuttosto che influenzare semplicemente le capacità di rilevamento.
Fatti principali
- 35.532 giudizi da 1.768 partecipanti
- 138 sistemi di text-to-speech e conversione vocale testati
- Accuratezza umana su campioni falsi: dal 72,9% (baseline 2021) al 71,2% (attuale)
- Accuratezza umana su campioni reali: dal 72,7% al 64,1%
- Sistemi commerciali e modelli linguistici autoregressivi più difficili da rilevare (61,3-65,9%)
- Modelli tradizionali seq2seq e flow-matching più facili da individuare (75,4-76,8%)
- Rilevatore ML ha mantenuto oltre il 94,5% di accuratezza
- Studio pubblicato su arXiv (2605.26136)
Entità
Istituzioni
- arXiv