EuropeMedQA: Dataset multilingue di esami medici per la valutazione di LLM

ai-technology · 2026-04-27

Il protocollo di studio EuropeMedQA presenta il primo ampio dataset multilingue e multimodale per esami medici, derivato da valutazioni regolatorie ufficiali in Italia, Francia, Spagna e Portogallo. Questo dataset è progettato per testare modelli linguistici di grandi dimensioni (LLM) su compiti che coinvolgono lingue non inglesi e diagnostica visiva, seguendo i principi FAIR dei dati e le linee guida SPIRIT-AI. Delinea un meticoloso processo di curation insieme a un sistema di traduzione automatica per la valutazione comparativa. Gli attuali LLM multimodali vengono valutati utilizzando un approccio zero-shot con prompt rigorosi per valutare il transfer cross-linguistico e il ragionamento visivo. EuropeMedQA mira a stabilire un benchmark resistente alla contaminazione, che rappresenti accuratamente le pratiche cliniche europee e migliori la generalizzabilità dell'IA medica.

Fatti principali

EuropeMedQA è il primo dataset completo multilingue e multimodale per esami medici.
Dataset proveniente da esami regolatori ufficiali in Italia, Francia, Spagna e Portogallo.
Segue i principi FAIR dei dati e le linee guida SPIRIT-AI.
Include un pipeline di traduzione automatica per l'analisi comparativa.
Valuta LLM multimodali utilizzando prompt zero-shot rigorosamente vincolati.
Mira a valutare il transfer cross-linguistico e il ragionamento visivo.
Progettato come benchmark resistente alla contaminazione.
Riflette la complessità delle pratiche cliniche europee.

Entità

Luoghi

Italy
France
Spain
Portugal
Europe

Fonti

arXiv cs.AI — 2026-04-27