LLM come Fabbriche di Dati per il Recupero di Codici Clinici in Lingue non Inglesi

ai-technology · 2026-06-01

Un recente studio pubblicato su arXiv (2605.30529) esplora il potenziale dei grandi modelli linguistici generativi per creare dati di training sintetici volti a migliorare il recupero di codici clinici per lingue non inglesi. I ricercatori hanno sviluppato un sistema di recupero a due stadi, composto da un bi-encoder e un cross-encoder reranker, ottimizzato utilizzando un encoder biomedico spagnolo (PlanTL-GOB-ES/bsc-bio-ehr-es) su dati sintetici generati da Gemini. Il bi-encoder ha raggiunto un Mean Reciprocal Rank (MRR) di 0,876, superando BioBERT-ST con 0,866, e lo ha superato in Recall@3 (0,650 vs. 0,626) e Recall@5 (0,804 vs. 0,790) senza precedente addestramento biomedico in inglese. L'incorporazione di un cross-encoder reranker ha portato il Recall@5 complessivo a 0,822, affrontando il calo nel recupero dei codici ICD-10-CM/CIE-10 oltre l'inglese, una carenza spesso oscurata dai benchmark aggregati.

Fatti principali

L'articolo arXiv 2605.30529 studia il recupero di codici clinici in lingue non inglesi
Utilizza dati sintetici generati da Gemini per l'addestramento
Recuperatore a due stadi: bi-encoder seguito da cross-encoder reranker
Modello base: PlanTL-GOB-ES/bsc-bio-ehr-es (encoder biomedico spagnolo)
Lingue coperte: inglese, spagnolo, catalano, italiano, portoghese, francese
Il solo bi-encoder raggiunge MRR 0,876 vs BioBERT-ST 0,866
Recall@3 del bi-encoder: 0,650 vs BioBERT-ST 0,626
Recall@5 del bi-encoder: 0,804 vs BioBERT-ST 0,790
Il cross-encoder reranker porta il Recall@5 aggregato a 0,822

LLM come Fabbriche di Dati per il Recupero di Codici Clinici in Lingue non Inglesi

Fatti principali

Entità

Istituzioni

Fonti