Corpus medico olandese pubblicato su Hugging Face

other · 2026-04-30

I ricercatori hanno creato il primo corpus linguistico medico olandese su larga scala, composto da circa 35 miliardi di token distribuiti su 100 milioni di documenti. Il corpus è stato costruito traducendo dataset inglesi, identificando testi medici in corpora generici ed estraendo risorse mediche olandesi aperte. È disponibile gratuitamente su Hugging Face per pre-training e attività di NLP downstream, affrontando la scarsità di corpora medici olandesi.

Fatti principali

I corpora medici olandesi sono scarsi, limitando lo sviluppo del NLP.
I metodi includono la traduzione di dataset inglesi, l'identificazione di testi medici in corpora generici e l'estrazione di risorse mediche olandesi aperte.
Il corpus comprende circa 35 miliardi di token.
Il corpus copre circa 100 milioni di documenti.
Il corpus è disponibile gratuitamente su Hugging Face.
Questo è il primo corpus linguistico medico olandese su larga scala.
Il corpus è destinato a pre-training e attività di NLP downstream.

Corpus medico olandese pubblicato su Hugging Face

Fatti principali

Entità

Istituzioni

Fonti