Studio: Gli umani sono scarsi nel rilevare la voce completamente sintetica

other · 2026-05-28

Un nuovo studio su arXiv (2605.28064) indaga quanto bene le persone riescano a individuare la voce sintetica in un contesto sociale. La ricerca ha coinvolto 47 partecipanti che hanno svolto un compito di localizzazione per identificare parti sintetiche in diversi tipi di discorso: autentico, completamente sintetico e parzialmente sintetico. I partecipanti sono stati influenzati da tre diversi segnali di fiducia: come veniva inquadrata l'istruzione, il contesto emotivo e l'etichettatura della fonte del discorso. I risultati hanno mostrato che le persone faticavano a identificare correttamente il discorso completamente sintetico, spesso indovinando in modo errato. Sebbene i segnali di fiducia non abbiano avuto un impatto complessivo forte, hanno influenzato il modo in cui i partecipanti rilevavano il discorso. Inoltre, le percezioni di qualità, come la meccanicità e la chiarezza, cambiavano a seconda del tipo di enunciato.

Fatti principali

47 partecipanti hanno completato un compito di localizzazione
Tre segnali di fiducia: inquadramento dell'istruzione, priming affettivo, etichettatura della provenienza
Il discorso completamente sintetico è stato rilevato a livelli inferiori al caso
La classe dell'enunciato è stata il principale determinante dell'accuratezza del rilevamento
I segnali di fiducia non hanno prodotto effetti principali ma hanno motivato il comportamento di rilevamento
Le valutazioni di qualità seguivano il tipo di enunciato
Studio pubblicato su arXiv con ID 2605.28064
Indagato il rilevamento dei deepfake vocali come processo percettivo e contestuale

Studio: Gli umani sono scarsi nel rilevare la voce completamente sintetica

Fatti principali

Entità

Istituzioni

Fonti