ARTFEED — Contemporary Art Intelligence

Il riconoscimento vocale hindi raggiunge il 91,79% di precisione con il keyword spotting basato su CNN

ai-technology · 2026-05-07

Uno studio sul keyword spotting (KWS) per il riconoscimento vocale in hindi, utilizzando un dataset di 40.000 campioni audio, raggiunge una precisione del 91,79%. Il sistema impiega reti neurali convoluzionali (CNN) con coefficienti cepstrali sulle frequenze Mel (MFCC) come caratteristiche di input. I campioni audio sono stati registrati a 44 kHz con una durata media di 1,9 secondi. L'approccio si concentra sul riconoscimento di query specifiche dell'utente su dispositivo, mantenendo l'efficienza computazionale. Sono state testate varie architetture CNN, con il modello con le migliori prestazioni che ha raggiunto la precisione riportata. Il lavoro è stato pubblicato su arXiv nelle categorie informatica e suono.

Fatti principali

  • Dataset di 40.000 campioni audio in hindi utilizzato
  • Frequenza di campionamento di 44 kHz
  • Durata media dell'audio di 1,9 secondi
  • Caratteristiche MFCC estratte dall'audio grezzo
  • Classificazione basata su CNN raggiunge il 91,79% di precisione
  • Focus sul keyword spotting su dispositivo e specifico per l'utente
  • Valutate molteplici architetture CNN
  • Pubblicato su arXiv (ID: 2605.02928)

Entità

Istituzioni

  • arXiv

Fonti