LLM come Fabbriche di Dati per il Recupero di Codici Clinici in Lingue non Inglesi
Un recente studio pubblicato su arXiv (2605.30529) esplora il potenziale dei grandi modelli linguistici generativi per creare dati di training sintetici volti a migliorare il recupero di codici clinici per lingue non inglesi. I ricercatori hanno sviluppato un sistema di recupero a due stadi, composto da un bi-encoder e un cross-encoder reranker, ottimizzato utilizzando un encoder biomedico spagnolo (PlanTL-GOB-ES/bsc-bio-ehr-es) su dati sintetici generati da Gemini. Il bi-encoder ha raggiunto un Mean Reciprocal Rank (MRR) di 0,876, superando BioBERT-ST con 0,866, e lo ha superato in Recall@3 (0,650 vs. 0,626) e Recall@5 (0,804 vs. 0,790) senza precedente addestramento biomedico in inglese. L'incorporazione di un cross-encoder reranker ha portato il Recall@5 complessivo a 0,822, affrontando il calo nel recupero dei codici ICD-10-CM/CIE-10 oltre l'inglese, una carenza spesso oscurata dai benchmark aggregati.
Fatti principali
- L'articolo arXiv 2605.30529 studia il recupero di codici clinici in lingue non inglesi
- Utilizza dati sintetici generati da Gemini per l'addestramento
- Recuperatore a due stadi: bi-encoder seguito da cross-encoder reranker
- Modello base: PlanTL-GOB-ES/bsc-bio-ehr-es (encoder biomedico spagnolo)
- Lingue coperte: inglese, spagnolo, catalano, italiano, portoghese, francese
- Il solo bi-encoder raggiunge MRR 0,876 vs BioBERT-ST 0,866
- Recall@3 del bi-encoder: 0,650 vs BioBERT-ST 0,626
- Recall@5 del bi-encoder: 0,804 vs BioBERT-ST 0,790
- Il cross-encoder reranker porta il Recall@5 aggregato a 0,822
Entità
Istituzioni
- arXiv
- PlanTL-GOB-ES
- BioBERT-ST
- Gemini