ARTFEED — Contemporary Art Intelligence

Riconoscimento delle Emozioni Vocali tramite MFCC e LSTM

other · 2026-04-30

Un nuovo studio su arXiv (2604.25938) presenta un sistema di riconoscimento delle emozioni vocali (SER) che utilizza le caratteristiche Mel-Frequency Cepstral Coefficient (MFCC) e una rete neurale Long Short-Term Memory (LSTM). Il sistema elabora il Toronto Emotional Speech Set (TESS) trasformando i segnali vocali in caratteristiche MFCC per catturare gli aspetti temporali, quindi li inserisce in un modello LSTM in grado di apprendere pattern sequenziali a lungo termine. Il lavoro evidenzia la crescente importanza del SER nell'interazione naturale uomo-computer, poiché le emozioni alterano i pattern vocali come tono, energia e tempismo. Le sfide includono la variabilità del parlante, le condizioni di registrazione e la somiglianza acustica tra le emozioni. Il metodo proposto mira a migliorare l'accuratezza del rilevamento combinando l'estrazione delle caratteristiche MFCC con le capacità di apprendimento sequenziale dell'LSTM.

Fatti principali

  • Il paper arXiv 2604.25938 introduce un sistema SER che utilizza MFCC e LSTM.
  • Il sistema utilizza il dataset Toronto Emotional Speech Set (TESS).
  • Le caratteristiche MFCC vengono estratte dai segnali vocali pre-elaborati.
  • Il modello LSTM apprende le caratteristiche a lungo termine dell'audio sequenziale.
  • Il SER rileva gli stati emotivi umani dal parlato per l'interazione uomo-computer.
  • Le emozioni modificano tono, energia e tempismo del parlato.
  • Le sfide includono l'incoerenza del parlante, le variazioni di registrazione e la somiglianza tra le emozioni.
  • Il lavoro è pubblicato su arXiv con Announce Type: cross.

Entità

Istituzioni

  • arXiv

Fonti