ARTFEED — Contemporary Art Intelligence

Bangla-WhisperDiar: Ottimizzazione di Whisper e PyAnnote per il Riconoscimento Vocale in Bengalese

ai-technology · 2026-05-12

Un team di ricercatori ha creato un sistema per il riconoscimento automatico del parlato (ASR) e la diarizzazione dei parlanti in bengalese di lunga durata perfezionando modelli esistenti. Hanno migliorato il modello tugstugi/bengaliai-regional-asr-whisper-medium attraverso un fine-tuning su un dataset specializzato composto da circa 15.000 file audio bengalesi segmentati e allineati, utilizzando un addestramento completo dei pesi e tecniche di data augmentation come l'iniezione di rumore, riverbero, eco, clipping e alterazioni di tono/tempo. Per la diarizzazione dei parlanti, hanno adattato pyannote/segmentation-3.0 con PyTorch Lightning, utilizzando un dataset annotato per competizioni e incorporando il backbone di segmentazione perfezionato nella pipeline pyannote/speaker-diarization-community-1. Questa ricerca affronta problemi legati alla comprensione del bengalese parlato, come registrazioni lunghe, ambienti acustici vari e differenze tra parlanti.

Fatti principali

  • Fine-tuning di tugstugi/bengaliai-regional-asr-whisper-medium per ASR in bengalese
  • Utilizzo di un dataset personalizzato di circa 15.000 segmenti audio bengalesi
  • Data augmentation includeva iniezione di rumore, riverbero, eco, clipping, perturbazione di tono/tempo
  • Fine-tuning di pyannote/segmentation-3.0 per la diarizzazione dei parlanti
  • Utilizzo di PyTorch Lightning per l'addestramento
  • Integrazione della segmentazione perfezionata nella pipeline pyannote/speaker-diarization-community-1
  • Affronta registrazioni di lunga durata, condizioni acustiche diverse, variabilità dei parlanti
  • Pubblicato su arXiv (2605.08214)

Entità

Istituzioni

  • arXiv

Fonti