ARTFEED — Contemporary Art Intelligence

LLM come Fabbriche di Dati per il Recupero di Codici Clinici in Lingue non Inglesi

ai-technology · 2026-06-01

Un recente studio pubblicato su arXiv (2605.30529) esplora il potenziale dei grandi modelli linguistici generativi per creare dati di training sintetici volti a migliorare il recupero di codici clinici per lingue non inglesi. I ricercatori hanno sviluppato un sistema di recupero a due stadi, composto da un bi-encoder e un cross-encoder reranker, ottimizzato utilizzando un encoder biomedico spagnolo (PlanTL-GOB-ES/bsc-bio-ehr-es) su dati sintetici generati da Gemini. Il bi-encoder ha raggiunto un Mean Reciprocal Rank (MRR) di 0,876, superando BioBERT-ST con 0,866, e lo ha superato in Recall@3 (0,650 vs. 0,626) e Recall@5 (0,804 vs. 0,790) senza precedente addestramento biomedico in inglese. L'incorporazione di un cross-encoder reranker ha portato il Recall@5 complessivo a 0,822, affrontando il calo nel recupero dei codici ICD-10-CM/CIE-10 oltre l'inglese, una carenza spesso oscurata dai benchmark aggregati.

Fatti principali

  • L'articolo arXiv 2605.30529 studia il recupero di codici clinici in lingue non inglesi
  • Utilizza dati sintetici generati da Gemini per l'addestramento
  • Recuperatore a due stadi: bi-encoder seguito da cross-encoder reranker
  • Modello base: PlanTL-GOB-ES/bsc-bio-ehr-es (encoder biomedico spagnolo)
  • Lingue coperte: inglese, spagnolo, catalano, italiano, portoghese, francese
  • Il solo bi-encoder raggiunge MRR 0,876 vs BioBERT-ST 0,866
  • Recall@3 del bi-encoder: 0,650 vs BioBERT-ST 0,626
  • Recall@5 del bi-encoder: 0,804 vs BioBERT-ST 0,790
  • Il cross-encoder reranker porta il Recall@5 aggregato a 0,822

Entità

Istituzioni

  • arXiv
  • PlanTL-GOB-ES
  • BioBERT-ST
  • Gemini

Fonti