EpiKG migliora il recupero clinico di 22 punti nel QA basato su asserzioni

publication · 2026-05-13

Una recente iniziativa di ricerca ha presentato ClinicalBench, un nuovo strumento di valutazione con 400 domande che valutano il recupero basato su asserzioni, attingendo da cartelle cliniche elettroniche reali di 43 pazienti nel database MIMIC-IV. Il benchmark si concentra su nove aree specifiche, affrontando problemi come la negazione e le diverse prospettive dei pazienti e delle loro famiglie. Il sistema EpiKG migliora i grafi di conoscenza dei pazienti aggiungendo etichette di asserzione e marcatori temporali per affinare il recupero dei dati in base alle query degli utenti. Nei test che hanno coinvolto sei grandi modelli linguistici, EpiKG ha dimostrato un miglioramento significativo, ottenendo un guadagno di 22 punti percentuali sul suo obiettivo principale, sottolineando le complessità del recupero pratico di informazioni cliniche.

Fatti principali

ClinicalBench contiene 400 domande su 43 pazienti MIMIC-IV in 9 categorie sensibili alle asserzioni.
EpiKG aggiunge etichette di asserzione e tag di temporalità a ogni fatto in un grafo di conoscenza del paziente.
Sono stati testati sei LLM: Claude Opus 4.6, GPT-OSS 20B, MedGemma 27B, Gemma 4 31B, MedGemma 1.5 4B, Qwen 3.5 35B.
Tre medici hanno giudicato in cieco 100 elementi accoppiati.
Due medici esterni hanno valutato 50 elementi con unanimità rigorosa per l'endpoint primario.
Endpoint primario: +22,0 punti percentuali (IC 95% Newcombe [+5,1, +31,5], p=0,0192).
Lo studio è pubblicato come arXiv:2605.11143.
EpiKG instrada il recupero in base all'intento della domanda, basandosi su asserzione e temporalità.

EpiKG migliora il recupero clinico di 22 punti nel QA basato su asserzioni

Fatti principali

Entità

Istituzioni

Fonti