Riconoscimento delle Emozioni Vocali tramite MFCC e LSTM

other · 2026-04-30

Un nuovo studio su arXiv (2604.25938) presenta un sistema di riconoscimento delle emozioni vocali (SER) che utilizza le caratteristiche Mel-Frequency Cepstral Coefficient (MFCC) e una rete neurale Long Short-Term Memory (LSTM). Il sistema elabora il Toronto Emotional Speech Set (TESS) trasformando i segnali vocali in caratteristiche MFCC per catturare gli aspetti temporali, quindi li inserisce in un modello LSTM in grado di apprendere pattern sequenziali a lungo termine. Il lavoro evidenzia la crescente importanza del SER nell'interazione naturale uomo-computer, poiché le emozioni alterano i pattern vocali come tono, energia e tempismo. Le sfide includono la variabilità del parlante, le condizioni di registrazione e la somiglianza acustica tra le emozioni. Il metodo proposto mira a migliorare l'accuratezza del rilevamento combinando l'estrazione delle caratteristiche MFCC con le capacità di apprendimento sequenziale dell'LSTM.

Fatti principali

Il paper arXiv 2604.25938 introduce un sistema SER che utilizza MFCC e LSTM.
Il sistema utilizza il dataset Toronto Emotional Speech Set (TESS).
Le caratteristiche MFCC vengono estratte dai segnali vocali pre-elaborati.
Il modello LSTM apprende le caratteristiche a lungo termine dell'audio sequenziale.
Il SER rileva gli stati emotivi umani dal parlato per l'interazione uomo-computer.
Le emozioni modificano tono, energia e tempismo del parlato.
Le sfide includono l'incoerenza del parlante, le variazioni di registrazione e la somiglianza tra le emozioni.
Il lavoro è pubblicato su arXiv con Announce Type: cross.

Riconoscimento delle Emozioni Vocali tramite MFCC e LSTM

Fatti principali

Entità

Istituzioni

Fonti