Il riconoscimento vocale hindi raggiunge il 91,79% di precisione con il keyword spotting basato su CNN

ai-technology · 2026-05-07

Uno studio sul keyword spotting (KWS) per il riconoscimento vocale in hindi, utilizzando un dataset di 40.000 campioni audio, raggiunge una precisione del 91,79%. Il sistema impiega reti neurali convoluzionali (CNN) con coefficienti cepstrali sulle frequenze Mel (MFCC) come caratteristiche di input. I campioni audio sono stati registrati a 44 kHz con una durata media di 1,9 secondi. L'approccio si concentra sul riconoscimento di query specifiche dell'utente su dispositivo, mantenendo l'efficienza computazionale. Sono state testate varie architetture CNN, con il modello con le migliori prestazioni che ha raggiunto la precisione riportata. Il lavoro è stato pubblicato su arXiv nelle categorie informatica e suono.

Fatti principali

Dataset di 40.000 campioni audio in hindi utilizzato
Frequenza di campionamento di 44 kHz
Durata media dell'audio di 1,9 secondi
Caratteristiche MFCC estratte dall'audio grezzo
Classificazione basata su CNN raggiunge il 91,79% di precisione
Focus sul keyword spotting su dispositivo e specifico per l'utente
Valutate molteplici architetture CNN
Pubblicato su arXiv (ID: 2605.02928)

Il riconoscimento vocale hindi raggiunge il 91,79% di precisione con il keyword spotting basato su CNN

Fatti principali

Entità

Istituzioni

Fonti