Il benchmark MedStruct-S punta all'estrazione di referti clinici OCR
MedStruct-S è stato lanciato da ricercatori come standard per valutare l'estrazione di informazioni semi-strutturate da referti clinici generati tramite OCR. Si concentra su tre compiti chiave: scoperta di intestazioni di campo, risposta a domande condizionate da chiave ed estrazione di coppie chiave-valore in modo end-to-end. Il benchmark comprende 3.582 pagine annotate da referti clinici reali e valuta i modelli in presenza di rappresentazioni di chiavi sconosciute e rumore OCR. Vengono testate due metodologie: etichettatura di sequenze con solo encoder con elaborazione successiva e generazione strutturata con solo decoder, che include quattro modelli solo encoder e cinque modelli solo decoder.
Fatti principali
- MedStruct-S è un benchmark per l'estrazione di informazioni semi-strutturate da referti clinici OCR.
- Copre tre compiti: scoperta di intestazioni di campo, QA condizionata da chiave ed estrazione end-to-end di coppie chiave-valore.
- Il benchmark contiene 3.582 pagine annotate di referti clinici reali.
- Valuta i modelli in presenza di rappresentazioni di chiavi sconosciute e rumore OCR.
- Vengono confrontati due paradigmi: etichettatura di sequenze con solo encoder e generazione strutturata con solo decoder.
- Sono coperti quattro modelli solo encoder e cinque modelli solo decoder.
- La ricerca è pubblicata su arXiv con ID 2605.03103.
- L'obiettivo è ricostruire le storie mediche longitudinali dei pazienti.
Entità
Istituzioni
- arXiv