Riconoscimento delle Emozioni Vocali tramite MFCC e LSTM
Un nuovo studio su arXiv (2604.25938) presenta un sistema di riconoscimento delle emozioni vocali (SER) che utilizza le caratteristiche Mel-Frequency Cepstral Coefficient (MFCC) e una rete neurale Long Short-Term Memory (LSTM). Il sistema elabora il Toronto Emotional Speech Set (TESS) trasformando i segnali vocali in caratteristiche MFCC per catturare gli aspetti temporali, quindi li inserisce in un modello LSTM in grado di apprendere pattern sequenziali a lungo termine. Il lavoro evidenzia la crescente importanza del SER nell'interazione naturale uomo-computer, poiché le emozioni alterano i pattern vocali come tono, energia e tempismo. Le sfide includono la variabilità del parlante, le condizioni di registrazione e la somiglianza acustica tra le emozioni. Il metodo proposto mira a migliorare l'accuratezza del rilevamento combinando l'estrazione delle caratteristiche MFCC con le capacità di apprendimento sequenziale dell'LSTM.
Fatti principali
- Il paper arXiv 2604.25938 introduce un sistema SER che utilizza MFCC e LSTM.
- Il sistema utilizza il dataset Toronto Emotional Speech Set (TESS).
- Le caratteristiche MFCC vengono estratte dai segnali vocali pre-elaborati.
- Il modello LSTM apprende le caratteristiche a lungo termine dell'audio sequenziale.
- Il SER rileva gli stati emotivi umani dal parlato per l'interazione uomo-computer.
- Le emozioni modificano tono, energia e tempismo del parlato.
- Le sfide includono l'incoerenza del parlante, le variazioni di registrazione e la somiglianza tra le emozioni.
- Il lavoro è pubblicato su arXiv con Announce Type: cross.
Entità
Istituzioni
- arXiv