BEA-Dialogue+ espande i dati di addestramento ASR ungherese a 200 ore
I ricercatori hanno rilasciato BEA-Dialogue+, una versione ampliata del corpus BEA-Dialogue per il riconoscimento automatico del parlato conversazionale in ungherese. Il corpus originale presentava una suddivisione rigorosa dei parlanti che limitava i dati di addestramento utilizzabili a 85 ore. BEA-Dialogue+ rilassa questo criterio per sperimentatori e partner di dialogo, mantenendo separati i parlanti principali, ottenendo 200 ore di conversazioni naturali trascritte. Ciò consente uno studio controllato del compromesso tra più dati di addestramento e sovrapposizione dei parlanti tra le suddivisioni. Il team ha valutato modelli basati su Whisper e FastConformer, incluso il fine-tuning con Serialized Output Training (SOT) per la trascrizione di dialoghi. I risultati mostrano che il corpus più grande è più impegnativo per i modelli senza fine-tuning. Il lavoro affronta la scarsità di dati di addestramento di tipo dialogico disponibili pubblicamente per l'ASR ungherese.
Fatti principali
- BEA-Dialogue+ è una versione ampliata del corpus BEA-Dialogue.
- Il corpus originale aveva 85 ore di dati utilizzabili a causa di una rigorosa suddivisione dei parlanti.
- La nuova versione fornisce 200 ore di conversazioni naturali trascritte.
- Il criterio di suddivisione è stato rilassato per sperimentatori e partner di dialogo.
- I parlanti principali rimangono completamente separati.
- Sono stati valutati modelli basati su Whisper e FastConformer.
- Il fine-tuning con Serialized Output Training (SOT) è stato utilizzato per la trascrizione di dialoghi.
- Il corpus più grande è più impegnativo per i modelli senza fine-tuning.
Entità
Istituzioni
- arXiv