Studio: Gli umani sono scarsi nel rilevare la voce completamente sintetica
Un nuovo studio su arXiv (2605.28064) indaga quanto bene le persone riescano a individuare la voce sintetica in un contesto sociale. La ricerca ha coinvolto 47 partecipanti che hanno svolto un compito di localizzazione per identificare parti sintetiche in diversi tipi di discorso: autentico, completamente sintetico e parzialmente sintetico. I partecipanti sono stati influenzati da tre diversi segnali di fiducia: come veniva inquadrata l'istruzione, il contesto emotivo e l'etichettatura della fonte del discorso. I risultati hanno mostrato che le persone faticavano a identificare correttamente il discorso completamente sintetico, spesso indovinando in modo errato. Sebbene i segnali di fiducia non abbiano avuto un impatto complessivo forte, hanno influenzato il modo in cui i partecipanti rilevavano il discorso. Inoltre, le percezioni di qualità, come la meccanicità e la chiarezza, cambiavano a seconda del tipo di enunciato.
Fatti principali
- 47 partecipanti hanno completato un compito di localizzazione
- Tre segnali di fiducia: inquadramento dell'istruzione, priming affettivo, etichettatura della provenienza
- Il discorso completamente sintetico è stato rilevato a livelli inferiori al caso
- La classe dell'enunciato è stata il principale determinante dell'accuratezza del rilevamento
- I segnali di fiducia non hanno prodotto effetti principali ma hanno motivato il comportamento di rilevamento
- Le valutazioni di qualità seguivano il tipo di enunciato
- Studio pubblicato su arXiv con ID 2605.28064
- Indagato il rilevamento dei deepfake vocali come processo percettivo e contestuale
Entità
Istituzioni
- arXiv