BEA-Dialogue+ espande i dati di addestramento ASR ungherese a 200 ore

publication · 2026-06-01

I ricercatori hanno rilasciato BEA-Dialogue+, una versione ampliata del corpus BEA-Dialogue per il riconoscimento automatico del parlato conversazionale in ungherese. Il corpus originale presentava una suddivisione rigorosa dei parlanti che limitava i dati di addestramento utilizzabili a 85 ore. BEA-Dialogue+ rilassa questo criterio per sperimentatori e partner di dialogo, mantenendo separati i parlanti principali, ottenendo 200 ore di conversazioni naturali trascritte. Ciò consente uno studio controllato del compromesso tra più dati di addestramento e sovrapposizione dei parlanti tra le suddivisioni. Il team ha valutato modelli basati su Whisper e FastConformer, incluso il fine-tuning con Serialized Output Training (SOT) per la trascrizione di dialoghi. I risultati mostrano che il corpus più grande è più impegnativo per i modelli senza fine-tuning. Il lavoro affronta la scarsità di dati di addestramento di tipo dialogico disponibili pubblicamente per l'ASR ungherese.

Fatti principali

BEA-Dialogue+ è una versione ampliata del corpus BEA-Dialogue.
Il corpus originale aveva 85 ore di dati utilizzabili a causa di una rigorosa suddivisione dei parlanti.
La nuova versione fornisce 200 ore di conversazioni naturali trascritte.
Il criterio di suddivisione è stato rilassato per sperimentatori e partner di dialogo.
I parlanti principali rimangono completamente separati.
Sono stati valutati modelli basati su Whisper e FastConformer.
Il fine-tuning con Serialized Output Training (SOT) è stato utilizzato per la trascrizione di dialoghi.
Il corpus più grande è più impegnativo per i modelli senza fine-tuning.

BEA-Dialogue+ espande i dati di addestramento ASR ungherese a 200 ore

Fatti principali

Entità

Istituzioni

Fonti