ARTFEED — Contemporary Art Intelligence

Corpus medico olandese pubblicato su Hugging Face

other · 2026-04-30

I ricercatori hanno creato il primo corpus linguistico medico olandese su larga scala, composto da circa 35 miliardi di token distribuiti su 100 milioni di documenti. Il corpus è stato costruito traducendo dataset inglesi, identificando testi medici in corpora generici ed estraendo risorse mediche olandesi aperte. È disponibile gratuitamente su Hugging Face per pre-training e attività di NLP downstream, affrontando la scarsità di corpora medici olandesi.

Fatti principali

  • I corpora medici olandesi sono scarsi, limitando lo sviluppo del NLP.
  • I metodi includono la traduzione di dataset inglesi, l'identificazione di testi medici in corpora generici e l'estrazione di risorse mediche olandesi aperte.
  • Il corpus comprende circa 35 miliardi di token.
  • Il corpus copre circa 100 milioni di documenti.
  • Il corpus è disponibile gratuitamente su Hugging Face.
  • Questo è il primo corpus linguistico medico olandese su larga scala.
  • Il corpus è destinato a pre-training e attività di NLP downstream.

Entità

Istituzioni

  • Hugging Face

Fonti