ARTFEED — Contemporary Art Intelligence

Studio rivela uno 'spostamento dello scetticismo': gli umani diffidano sempre più dell'audio reale dopo l'esposizione ai deepfake

ai-technology · 2026-05-27

Un'indagine approfondita sulla percezione dei deepfake audio, pubblicata su arXiv, indica un notevole 'spostamento dello scetticismo'. Mentre l'accuratezza dei partecipanti nell'identificare audio falsi è rimasta relativamente invariata (dal 72,9% al 71,2%), la loro fiducia nel parlato genuino è diminuita significativamente (dal 72,7% al 64,1%). La ricerca ha raccolto 35.532 valutazioni da 1.768 individui, valutando 138 diverse tecnologie di text-to-speech e conversione vocale. È emerso che i modelli linguistici commerciali e autoregressivi erano i più difficili da identificare (con un'accuratezza tra il 61,3% e il 65,9%), mentre i modelli tradizionali seq2seq e flow-matching erano più facilmente riconoscibili (con un'accuratezza dal 75,4% al 76,8%). Inoltre, un rilevatore di machine learning ha raggiunto oltre il 94,5% di accuratezza in tutti gli scenari, evidenziando che i deepfake riducono la fiducia nell'audio reale piuttosto che influenzare semplicemente le capacità di rilevamento.

Fatti principali

  • 35.532 giudizi da 1.768 partecipanti
  • 138 sistemi di text-to-speech e conversione vocale testati
  • Accuratezza umana su campioni falsi: dal 72,9% (baseline 2021) al 71,2% (attuale)
  • Accuratezza umana su campioni reali: dal 72,7% al 64,1%
  • Sistemi commerciali e modelli linguistici autoregressivi più difficili da rilevare (61,3-65,9%)
  • Modelli tradizionali seq2seq e flow-matching più facili da individuare (75,4-76,8%)
  • Rilevatore ML ha mantenuto oltre il 94,5% di accuratezza
  • Studio pubblicato su arXiv (2605.26136)

Entità

Istituzioni

  • arXiv

Fonti