ARTFEED — Contemporary Art Intelligence

EuropeMedQA: Dataset multilingue di esami medici per la valutazione di LLM

ai-technology · 2026-04-27

Il protocollo di studio EuropeMedQA presenta il primo ampio dataset multilingue e multimodale per esami medici, derivato da valutazioni regolatorie ufficiali in Italia, Francia, Spagna e Portogallo. Questo dataset è progettato per testare modelli linguistici di grandi dimensioni (LLM) su compiti che coinvolgono lingue non inglesi e diagnostica visiva, seguendo i principi FAIR dei dati e le linee guida SPIRIT-AI. Delinea un meticoloso processo di curation insieme a un sistema di traduzione automatica per la valutazione comparativa. Gli attuali LLM multimodali vengono valutati utilizzando un approccio zero-shot con prompt rigorosi per valutare il transfer cross-linguistico e il ragionamento visivo. EuropeMedQA mira a stabilire un benchmark resistente alla contaminazione, che rappresenti accuratamente le pratiche cliniche europee e migliori la generalizzabilità dell'IA medica.

Fatti principali

  • EuropeMedQA è il primo dataset completo multilingue e multimodale per esami medici.
  • Dataset proveniente da esami regolatori ufficiali in Italia, Francia, Spagna e Portogallo.
  • Segue i principi FAIR dei dati e le linee guida SPIRIT-AI.
  • Include un pipeline di traduzione automatica per l'analisi comparativa.
  • Valuta LLM multimodali utilizzando prompt zero-shot rigorosamente vincolati.
  • Mira a valutare il transfer cross-linguistico e il ragionamento visivo.
  • Progettato come benchmark resistente alla contaminazione.
  • Riflette la complessità delle pratiche cliniche europee.

Entità

Luoghi

  • Italy
  • France
  • Spain
  • Portugal
  • Europe

Fonti