ARTFEED — Contemporary Art Intelligence

Il benchmark MedStruct-S punta all'estrazione di referti clinici OCR

other · 2026-05-07

MedStruct-S è stato lanciato da ricercatori come standard per valutare l'estrazione di informazioni semi-strutturate da referti clinici generati tramite OCR. Si concentra su tre compiti chiave: scoperta di intestazioni di campo, risposta a domande condizionate da chiave ed estrazione di coppie chiave-valore in modo end-to-end. Il benchmark comprende 3.582 pagine annotate da referti clinici reali e valuta i modelli in presenza di rappresentazioni di chiavi sconosciute e rumore OCR. Vengono testate due metodologie: etichettatura di sequenze con solo encoder con elaborazione successiva e generazione strutturata con solo decoder, che include quattro modelli solo encoder e cinque modelli solo decoder.

Fatti principali

  • MedStruct-S è un benchmark per l'estrazione di informazioni semi-strutturate da referti clinici OCR.
  • Copre tre compiti: scoperta di intestazioni di campo, QA condizionata da chiave ed estrazione end-to-end di coppie chiave-valore.
  • Il benchmark contiene 3.582 pagine annotate di referti clinici reali.
  • Valuta i modelli in presenza di rappresentazioni di chiavi sconosciute e rumore OCR.
  • Vengono confrontati due paradigmi: etichettatura di sequenze con solo encoder e generazione strutturata con solo decoder.
  • Sono coperti quattro modelli solo encoder e cinque modelli solo decoder.
  • La ricerca è pubblicata su arXiv con ID 2605.03103.
  • L'obiettivo è ricostruire le storie mediche longitudinali dei pazienti.

Entità

Istituzioni

  • arXiv

Fonti