JMed48k: Benchmark per la Licenza Medica Giapponese per VLM
Un nuovo benchmark chiamato JMed48k è stato sviluppato da ricercatori per valutare i modelli visione-linguaggio nel contesto della licenza sanitaria giapponese. Questo dataset, derivato da documenti PDF ufficiali del Ministero della Salute, del Lavoro e del Welfare del Giappone, comprende 48.862 domande d'esame e 20.142 immagini provenienti da 11 esami di licenza nazionale condotti tra il 2005 e il 2025, con elementi visivi categorizzati utilizzando una tassonomia a 8 tipi. Inoltre, un sottoinsieme chiamato JMed48k-Eval presenta 12.484 domande valutate degli ultimi cinque anni, incluse 9.905 domande solo testuali e 2.579 con immagini. Il team di ricerca ha analizzato 21 modelli—sia proprietari che open-source—riportando le loro prestazioni su domande solo testuali e con immagini. Un audit di rimozione delle immagini accoppiato ha valutato quattro stati di transizione delle risposte confrontando domande con e senza immagini.
Fatti principali
- JMed48k contiene 48.862 domande d'esame e 20.142 immagini da 11 esami di licenza nazionale giapponese (2005–2025).
- Costruito da materiali PDF ufficiali rilasciati dal Ministero della Salute, del Lavoro e del Welfare del Giappone.
- Il contenuto visivo è annotato secondo una tassonomia a 8 tipi.
- Il sottoinsieme JMed48k-Eval ha 12.484 domande valutate: 9.905 solo testuali e 2.579 con immagini.
- Sono stati valutati 21 modelli (proprietari, open-source, specifici per il settore medico).
- È stato condotto un audit di rimozione delle immagini accoppiato per studiare quattro stati di transizione delle risposte.
- Il benchmark è progettato per la valutazione di modelli visione-linguaggio nel settore sanitario giapponese.
- Le prestazioni sono riportate separatamente per domande solo testuali e con immagini.
Entità
Istituzioni
- Japanese Ministry of Health, Labour and Welfare
- arXiv
Luoghi
- Japan