Pipeline RAG per l'estrazione di informazioni cliniche da trascrizioni infermiere-paziente
È stata introdotta una nuova pipeline modulare di generazione aumentata da recupero (RAG) per facilitare l'estrazione di informazioni cliniche vincolate da schema da dialoghi tra infermieri e pazienti. Questo sistema affronta il problema di trasformare narrazioni non strutturate in formati strutturati che rispettano i vincoli di tipo-valore, come delineato dal compito MEDIQA-SYNUR. Utilizza il set di addestramento come corpus modello e integra il prompting vincolato da schema (schema candidato completo e potato), post-elaborazione deterministica basata su schema e un audit secondario. La pipeline presenta due backbone LLM: Llama-4-Scout-17B-16E-Instruct e GPT-5.2, insieme a modelli di embedding pertinenti per RAG. Questa strategia cerca di alleviare il significativo carico di lavoro di documentazione che ostacola i clinici, che ricerche precedenti indicano sottrae tempo alla cura diretta del paziente.
Fatti principali
- La pipeline è progettata per MEDIQA-SYNUR, concentrandosi sull'estrazione di osservazioni da trascrizioni infermiere-paziente.
- Utilizza la generazione aumentata da recupero con prompting vincolato da schema.
- Vengono testati due backbone LLM: Llama-4-Scout-17B-16E-Instruct e GPT-5.2.
- Il sistema normalizza le narrazioni in uno schema predefinito con vincoli di tipo-valore.
- È incluso un audit di secondo passaggio per il controllo qualità.
- Il set di addestramento funge da corpus esemplare per RAG.
- Studi precedenti mostrano che i clinici trascorrono gran parte della giornata lavorativa nella documentazione.
- La pipeline mira a ridurre il carico di documentazione e aumentare il tempo dedicato alla cura diretta del paziente.
Entità
Istituzioni
- MEDIQA-SYNUR
- arXiv