Dataset SHIELD e Modelli Linguistici Piccoli Distillati per la De-identificazione di Testi Clinici
Un team di ricercatori ha presentato SHIELD (Synthetic Human-annotated Identifier-replaced Entries for Learning and De-identification), che comprende 1.394 note cliniche con 10.505 span gold-standard di Informazioni Sanitarie Protette (PHI) categorizzate in nove gruppi distinti. Questo dataset è stato creato tramite campionamento di diversità set-cover, integrato da aggiudicazione human-in-the-loop, per rimediare alle carenze nella diversità semantica e demografica riscontrate in precedenti benchmark come i2b2 2006/2014. La ricerca ha valutato quattro Large Language Models, inclusi due proprietari e due a pesi aperti, per determinare un benchmark di performance, successivamente raffinando queste capacità in Small Language Models (SLM) per il deployment locale, affrontando problemi come i costi di calcolo e le limitazioni di governance sulle API cloud per PHI. La distanza di Frechet è stata utilizzata per l'analisi distribuzionale per valutare la rappresentatività del dataset.
Fatti principali
- Il dataset SHIELD contiene 1.394 note e 10.505 span PHI in 9 categorie.
- Costruito tramite campionamento di diversità set-cover con aggiudicazione human-in-the-loop.
- Affronta la mancanza di diversità in vecchi benchmark come i2b2 2006/2014.
- Valutati quattro LLM (due proprietari, due a pesi aperti) per il tetto di performance.
- Capacità degli LLM distillate in Small Language Models (SLM) distribuibili localmente.
- Il deployment aziendale è ostacolato da costi di calcolo e governance che limitano PHI dalle API cloud.
- Eseguita analisi distribuzionale usando la distanza di Frechet.
- Pubblicato su arXiv con identificatore 2605.03301.
Entità
Istituzioni
- arXiv