Il benchmark MedStruct-S punta all'estrazione di referti clinici OCR

other · 2026-05-07

MedStruct-S è stato lanciato da ricercatori come standard per valutare l'estrazione di informazioni semi-strutturate da referti clinici generati tramite OCR. Si concentra su tre compiti chiave: scoperta di intestazioni di campo, risposta a domande condizionate da chiave ed estrazione di coppie chiave-valore in modo end-to-end. Il benchmark comprende 3.582 pagine annotate da referti clinici reali e valuta i modelli in presenza di rappresentazioni di chiavi sconosciute e rumore OCR. Vengono testate due metodologie: etichettatura di sequenze con solo encoder con elaborazione successiva e generazione strutturata con solo decoder, che include quattro modelli solo encoder e cinque modelli solo decoder.

Fatti principali

MedStruct-S è un benchmark per l'estrazione di informazioni semi-strutturate da referti clinici OCR.
Copre tre compiti: scoperta di intestazioni di campo, QA condizionata da chiave ed estrazione end-to-end di coppie chiave-valore.
Il benchmark contiene 3.582 pagine annotate di referti clinici reali.
Valuta i modelli in presenza di rappresentazioni di chiavi sconosciute e rumore OCR.
Vengono confrontati due paradigmi: etichettatura di sequenze con solo encoder e generazione strutturata con solo decoder.
Sono coperti quattro modelli solo encoder e cinque modelli solo decoder.
La ricerca è pubblicata su arXiv con ID 2605.03103.
L'obiettivo è ricostruire le storie mediche longitudinali dei pazienti.

Il benchmark MedStruct-S punta all'estrazione di referti clinici OCR

Fatti principali

Entità

Istituzioni

Fonti