Rilevamento Automatico di Errori di Dosaggio nelle Narrazioni di Studi Clinici Utilizzando LightGBM
Un nuovo sistema automatico rileva errori di dosaggio nelle narrazioni di studi clinici utilizzando gradient boosting e ingegneria delle caratteristiche multimodale. L'approccio combina 3.451 caratteristiche da NLP, embedding semantici, pattern medici e modelli transformer per addestrare un modello LightGBM su 42.112 narrazioni. Sul benchmark CT-DEB, raggiunge un ROC-AUC di test di 0,8725 con media di ensemble a 5 fold.
Fatti principali
- Il sistema utilizza LightGBM con 3.451 caratteristiche
- Le caratteristiche includono TF-IDF, n-grammi di caratteri, embedding all-MiniLM-L6v2, BiomedBERT, DeBERTa-v3
- Addestrato su 42.112 narrazioni di studi clinici
- Raggiunge un ROC-AUC di test di 0,8725
- AUC di convalida incrociata: 0,8833 ± 0,0091
- Il dataset presenta un grave squilibrio di classe (tasso positivo del 4,9%)
- Caratteristiche estratte da nove campi di testo complementari
- Mediana di 5.400 caratteri per campione
Entità
—