Pipeline RAG per l'estrazione di informazioni cliniche da trascrizioni infermiere-paziente

ai-technology · 2026-05-18

È stata introdotta una nuova pipeline modulare di generazione aumentata da recupero (RAG) per facilitare l'estrazione di informazioni cliniche vincolate da schema da dialoghi tra infermieri e pazienti. Questo sistema affronta il problema di trasformare narrazioni non strutturate in formati strutturati che rispettano i vincoli di tipo-valore, come delineato dal compito MEDIQA-SYNUR. Utilizza il set di addestramento come corpus modello e integra il prompting vincolato da schema (schema candidato completo e potato), post-elaborazione deterministica basata su schema e un audit secondario. La pipeline presenta due backbone LLM: Llama-4-Scout-17B-16E-Instruct e GPT-5.2, insieme a modelli di embedding pertinenti per RAG. Questa strategia cerca di alleviare il significativo carico di lavoro di documentazione che ostacola i clinici, che ricerche precedenti indicano sottrae tempo alla cura diretta del paziente.

Fatti principali

La pipeline è progettata per MEDIQA-SYNUR, concentrandosi sull'estrazione di osservazioni da trascrizioni infermiere-paziente.
Utilizza la generazione aumentata da recupero con prompting vincolato da schema.
Vengono testati due backbone LLM: Llama-4-Scout-17B-16E-Instruct e GPT-5.2.
Il sistema normalizza le narrazioni in uno schema predefinito con vincoli di tipo-valore.
È incluso un audit di secondo passaggio per il controllo qualità.
Il set di addestramento funge da corpus esemplare per RAG.
Studi precedenti mostrano che i clinici trascorrono gran parte della giornata lavorativa nella documentazione.
La pipeline mira a ridurre il carico di documentazione e aumentare il tempo dedicato alla cura diretta del paziente.

Pipeline RAG per l'estrazione di informazioni cliniche da trascrizioni infermiere-paziente

Fatti principali

Entità

Istituzioni

Fonti