Rilevamento Automatico di Errori di Dosaggio nelle Narrazioni di Studi Clinici Utilizzando LightGBM

other · 2026-04-24

Un nuovo sistema automatico rileva errori di dosaggio nelle narrazioni di studi clinici utilizzando gradient boosting e ingegneria delle caratteristiche multimodale. L'approccio combina 3.451 caratteristiche da NLP, embedding semantici, pattern medici e modelli transformer per addestrare un modello LightGBM su 42.112 narrazioni. Sul benchmark CT-DEB, raggiunge un ROC-AUC di test di 0,8725 con media di ensemble a 5 fold.

Fatti principali

Il sistema utilizza LightGBM con 3.451 caratteristiche
Le caratteristiche includono TF-IDF, n-grammi di caratteri, embedding all-MiniLM-L6v2, BiomedBERT, DeBERTa-v3
Addestrato su 42.112 narrazioni di studi clinici
Raggiunge un ROC-AUC di test di 0,8725
AUC di convalida incrociata: 0,8833 ± 0,0091
Il dataset presenta un grave squilibrio di classe (tasso positivo del 4,9%)
Caratteristiche estratte da nove campi di testo complementari
Mediana di 5.400 caratteri per campione

Entità

—

Fonti

arXiv cs.AI — 2026-04-23