Miglioramento del 22% nella verifica del parlato sussurrato

other · 2026-04-24

Un nuovo modello migliora la verifica del parlante per il parlato sussurrato, ottenendo un miglioramento relativo del 22,26% rispetto al baseline nei test tra parlato normale e sussurrato. Il sistema utilizza una struttura encoder-decoder su un backbone di verifica del parlante ottimizzato, con classificazione basata su similarità del coseno e triplet loss. Raggiunge un AUC del 98,16% nei test normale vs sussurrato. Il parlato sussurrato degrada la verifica standard a causa delle diverse caratteristiche acustiche, ma questo approccio affronta scenari reali come la protezione della privacy o i disturbi vocali. La ricerca è pubblicata su arXiv (2604.20229).

Fatti principali

Miglioramento relativo del 22,26% rispetto al baseline
Tasso di errore baseline 6,77% vs proposto 5,27%
AUC del 98,16% nei test normale vs sussurrato
Struttura encoder-decoder su backbone di verifica del parlante ottimizzato
Ottimizzato con classificazione basata su similarità del coseno e triplet loss
Il parlato sussurrato differisce acusticamente dal parlato fonato
Applicazioni includono protezione della privacy e disturbi vocali
Pubblicato su arXiv con ID 2604.20229

Miglioramento del 22% nella verifica del parlato sussurrato

Fatti principali

Entità

Istituzioni

Fonti