Bangla-WhisperDiar: Ottimizzazione di Whisper e PyAnnote per il Riconoscimento Vocale in Bengalese

ai-technology · 2026-05-12

Un team di ricercatori ha creato un sistema per il riconoscimento automatico del parlato (ASR) e la diarizzazione dei parlanti in bengalese di lunga durata perfezionando modelli esistenti. Hanno migliorato il modello tugstugi/bengaliai-regional-asr-whisper-medium attraverso un fine-tuning su un dataset specializzato composto da circa 15.000 file audio bengalesi segmentati e allineati, utilizzando un addestramento completo dei pesi e tecniche di data augmentation come l'iniezione di rumore, riverbero, eco, clipping e alterazioni di tono/tempo. Per la diarizzazione dei parlanti, hanno adattato pyannote/segmentation-3.0 con PyTorch Lightning, utilizzando un dataset annotato per competizioni e incorporando il backbone di segmentazione perfezionato nella pipeline pyannote/speaker-diarization-community-1. Questa ricerca affronta problemi legati alla comprensione del bengalese parlato, come registrazioni lunghe, ambienti acustici vari e differenze tra parlanti.

Fatti principali

Fine-tuning di tugstugi/bengaliai-regional-asr-whisper-medium per ASR in bengalese
Utilizzo di un dataset personalizzato di circa 15.000 segmenti audio bengalesi
Data augmentation includeva iniezione di rumore, riverbero, eco, clipping, perturbazione di tono/tempo
Fine-tuning di pyannote/segmentation-3.0 per la diarizzazione dei parlanti
Utilizzo di PyTorch Lightning per l'addestramento
Integrazione della segmentazione perfezionata nella pipeline pyannote/speaker-diarization-community-1
Affronta registrazioni di lunga durata, condizioni acustiche diverse, variabilità dei parlanti
Pubblicato su arXiv (2605.08214)

Bangla-WhisperDiar: Ottimizzazione di Whisper e PyAnnote per il Riconoscimento Vocale in Bengalese

Fatti principali

Entità

Istituzioni

Fonti