Corpus medico olandese pubblicato su Hugging Face
I ricercatori hanno creato il primo corpus linguistico medico olandese su larga scala, composto da circa 35 miliardi di token distribuiti su 100 milioni di documenti. Il corpus è stato costruito traducendo dataset inglesi, identificando testi medici in corpora generici ed estraendo risorse mediche olandesi aperte. È disponibile gratuitamente su Hugging Face per pre-training e attività di NLP downstream, affrontando la scarsità di corpora medici olandesi.
Fatti principali
- I corpora medici olandesi sono scarsi, limitando lo sviluppo del NLP.
- I metodi includono la traduzione di dataset inglesi, l'identificazione di testi medici in corpora generici e l'estrazione di risorse mediche olandesi aperte.
- Il corpus comprende circa 35 miliardi di token.
- Il corpus copre circa 100 milioni di documenti.
- Il corpus è disponibile gratuitamente su Hugging Face.
- Questo è il primo corpus linguistico medico olandese su larga scala.
- Il corpus è destinato a pre-training e attività di NLP downstream.
Entità
Istituzioni
- Hugging Face