Dataset SHIELD e Modelli Linguistici Piccoli Distillati per la De-identificazione di Testi Clinici

ai-technology · 2026-05-07

Un team di ricercatori ha presentato SHIELD (Synthetic Human-annotated Identifier-replaced Entries for Learning and De-identification), che comprende 1.394 note cliniche con 10.505 span gold-standard di Informazioni Sanitarie Protette (PHI) categorizzate in nove gruppi distinti. Questo dataset è stato creato tramite campionamento di diversità set-cover, integrato da aggiudicazione human-in-the-loop, per rimediare alle carenze nella diversità semantica e demografica riscontrate in precedenti benchmark come i2b2 2006/2014. La ricerca ha valutato quattro Large Language Models, inclusi due proprietari e due a pesi aperti, per determinare un benchmark di performance, successivamente raffinando queste capacità in Small Language Models (SLM) per il deployment locale, affrontando problemi come i costi di calcolo e le limitazioni di governance sulle API cloud per PHI. La distanza di Frechet è stata utilizzata per l'analisi distribuzionale per valutare la rappresentatività del dataset.

Fatti principali

Il dataset SHIELD contiene 1.394 note e 10.505 span PHI in 9 categorie.
Costruito tramite campionamento di diversità set-cover con aggiudicazione human-in-the-loop.
Affronta la mancanza di diversità in vecchi benchmark come i2b2 2006/2014.
Valutati quattro LLM (due proprietari, due a pesi aperti) per il tetto di performance.
Capacità degli LLM distillate in Small Language Models (SLM) distribuibili localmente.
Il deployment aziendale è ostacolato da costi di calcolo e governance che limitano PHI dalle API cloud.
Eseguita analisi distribuzionale usando la distanza di Frechet.
Pubblicato su arXiv con identificatore 2605.03301.

Dataset SHIELD e Modelli Linguistici Piccoli Distillati per la De-identificazione di Testi Clinici

Fatti principali

Entità

Istituzioni

Fonti