EuropeMedQA: Dataset multilingue di esami medici per la valutazione di LLM
Il protocollo di studio EuropeMedQA presenta il primo ampio dataset multilingue e multimodale per esami medici, derivato da valutazioni regolatorie ufficiali in Italia, Francia, Spagna e Portogallo. Questo dataset è progettato per testare modelli linguistici di grandi dimensioni (LLM) su compiti che coinvolgono lingue non inglesi e diagnostica visiva, seguendo i principi FAIR dei dati e le linee guida SPIRIT-AI. Delinea un meticoloso processo di curation insieme a un sistema di traduzione automatica per la valutazione comparativa. Gli attuali LLM multimodali vengono valutati utilizzando un approccio zero-shot con prompt rigorosi per valutare il transfer cross-linguistico e il ragionamento visivo. EuropeMedQA mira a stabilire un benchmark resistente alla contaminazione, che rappresenti accuratamente le pratiche cliniche europee e migliori la generalizzabilità dell'IA medica.
Fatti principali
- EuropeMedQA è il primo dataset completo multilingue e multimodale per esami medici.
- Dataset proveniente da esami regolatori ufficiali in Italia, Francia, Spagna e Portogallo.
- Segue i principi FAIR dei dati e le linee guida SPIRIT-AI.
- Include un pipeline di traduzione automatica per l'analisi comparativa.
- Valuta LLM multimodali utilizzando prompt zero-shot rigorosamente vincolati.
- Mira a valutare il transfer cross-linguistico e il ragionamento visivo.
- Progettato come benchmark resistente alla contaminazione.
- Riflette la complessità delle pratiche cliniche europee.
Entità
Luoghi
- Italy
- France
- Spain
- Portugal
- Europe