JMed48k: Benchmark per la Licenza Medica Giapponese per VLM

ai-technology · 2026-05-23

Un nuovo benchmark chiamato JMed48k è stato sviluppato da ricercatori per valutare i modelli visione-linguaggio nel contesto della licenza sanitaria giapponese. Questo dataset, derivato da documenti PDF ufficiali del Ministero della Salute, del Lavoro e del Welfare del Giappone, comprende 48.862 domande d'esame e 20.142 immagini provenienti da 11 esami di licenza nazionale condotti tra il 2005 e il 2025, con elementi visivi categorizzati utilizzando una tassonomia a 8 tipi. Inoltre, un sottoinsieme chiamato JMed48k-Eval presenta 12.484 domande valutate degli ultimi cinque anni, incluse 9.905 domande solo testuali e 2.579 con immagini. Il team di ricerca ha analizzato 21 modelli—sia proprietari che open-source—riportando le loro prestazioni su domande solo testuali e con immagini. Un audit di rimozione delle immagini accoppiato ha valutato quattro stati di transizione delle risposte confrontando domande con e senza immagini.

Fatti principali

JMed48k contiene 48.862 domande d'esame e 20.142 immagini da 11 esami di licenza nazionale giapponese (2005–2025).
Costruito da materiali PDF ufficiali rilasciati dal Ministero della Salute, del Lavoro e del Welfare del Giappone.
Il contenuto visivo è annotato secondo una tassonomia a 8 tipi.
Il sottoinsieme JMed48k-Eval ha 12.484 domande valutate: 9.905 solo testuali e 2.579 con immagini.
Sono stati valutati 21 modelli (proprietari, open-source, specifici per il settore medico).
È stato condotto un audit di rimozione delle immagini accoppiato per studiare quattro stati di transizione delle risposte.
Il benchmark è progettato per la valutazione di modelli visione-linguaggio nel settore sanitario giapponese.
Le prestazioni sono riportate separatamente per domande solo testuali e con immagini.

Entità

Istituzioni

Japanese Ministry of Health, Labour and Welfare
arXiv

Luoghi

Japan

Fonti

arXiv cs.AI — 2026-05-23