ARTFEED — Contemporary Art Intelligence

Rilevamento Automatico di Errori di Dosaggio nelle Narrazioni di Studi Clinici Utilizzando LightGBM

other · 2026-04-24

Un nuovo sistema automatico rileva errori di dosaggio nelle narrazioni di studi clinici utilizzando gradient boosting e ingegneria delle caratteristiche multimodale. L'approccio combina 3.451 caratteristiche da NLP, embedding semantici, pattern medici e modelli transformer per addestrare un modello LightGBM su 42.112 narrazioni. Sul benchmark CT-DEB, raggiunge un ROC-AUC di test di 0,8725 con media di ensemble a 5 fold.

Fatti principali

  • Il sistema utilizza LightGBM con 3.451 caratteristiche
  • Le caratteristiche includono TF-IDF, n-grammi di caratteri, embedding all-MiniLM-L6v2, BiomedBERT, DeBERTa-v3
  • Addestrato su 42.112 narrazioni di studi clinici
  • Raggiunge un ROC-AUC di test di 0,8725
  • AUC di convalida incrociata: 0,8833 ± 0,0091
  • Il dataset presenta un grave squilibrio di classe (tasso positivo del 4,9%)
  • Caratteristiche estratte da nove campi di testo complementari
  • Mediana di 5.400 caratteri per campione

Entità

Fonti