Miglioramento del 22% nella verifica del parlato sussurrato
Un nuovo modello migliora la verifica del parlante per il parlato sussurrato, ottenendo un miglioramento relativo del 22,26% rispetto al baseline nei test tra parlato normale e sussurrato. Il sistema utilizza una struttura encoder-decoder su un backbone di verifica del parlante ottimizzato, con classificazione basata su similarità del coseno e triplet loss. Raggiunge un AUC del 98,16% nei test normale vs sussurrato. Il parlato sussurrato degrada la verifica standard a causa delle diverse caratteristiche acustiche, ma questo approccio affronta scenari reali come la protezione della privacy o i disturbi vocali. La ricerca è pubblicata su arXiv (2604.20229).
Fatti principali
- Miglioramento relativo del 22,26% rispetto al baseline
- Tasso di errore baseline 6,77% vs proposto 5,27%
- AUC del 98,16% nei test normale vs sussurrato
- Struttura encoder-decoder su backbone di verifica del parlante ottimizzato
- Ottimizzato con classificazione basata su similarità del coseno e triplet loss
- Il parlato sussurrato differisce acusticamente dal parlato fonato
- Applicazioni includono protezione della privacy e disturbi vocali
- Pubblicato su arXiv con ID 2604.20229
Entità
Istituzioni
- arXiv