Bangla-WhisperDiar: Ottimizzazione di Whisper e PyAnnote per il Riconoscimento Vocale in Bengalese
Un team di ricercatori ha creato un sistema per il riconoscimento automatico del parlato (ASR) e la diarizzazione dei parlanti in bengalese di lunga durata perfezionando modelli esistenti. Hanno migliorato il modello tugstugi/bengaliai-regional-asr-whisper-medium attraverso un fine-tuning su un dataset specializzato composto da circa 15.000 file audio bengalesi segmentati e allineati, utilizzando un addestramento completo dei pesi e tecniche di data augmentation come l'iniezione di rumore, riverbero, eco, clipping e alterazioni di tono/tempo. Per la diarizzazione dei parlanti, hanno adattato pyannote/segmentation-3.0 con PyTorch Lightning, utilizzando un dataset annotato per competizioni e incorporando il backbone di segmentazione perfezionato nella pipeline pyannote/speaker-diarization-community-1. Questa ricerca affronta problemi legati alla comprensione del bengalese parlato, come registrazioni lunghe, ambienti acustici vari e differenze tra parlanti.
Fatti principali
- Fine-tuning di tugstugi/bengaliai-regional-asr-whisper-medium per ASR in bengalese
- Utilizzo di un dataset personalizzato di circa 15.000 segmenti audio bengalesi
- Data augmentation includeva iniezione di rumore, riverbero, eco, clipping, perturbazione di tono/tempo
- Fine-tuning di pyannote/segmentation-3.0 per la diarizzazione dei parlanti
- Utilizzo di PyTorch Lightning per l'addestramento
- Integrazione della segmentazione perfezionata nella pipeline pyannote/speaker-diarization-community-1
- Affronta registrazioni di lunga durata, condizioni acustiche diverse, variabilità dei parlanti
- Pubblicato su arXiv (2605.08214)
Entità
Istituzioni
- arXiv