I Modelli Linguistici Multimodali di Grandi Dimensioni Falliscono nella Dermatologia Reale
Uno studio che valuta i modelli linguistici multimodali di grandi dimensioni (MLLM) in compiti dermatologici reali rivela un calo significativo delle prestazioni rispetto ai benchmark pubblici. I ricercatori hanno testato quattro modelli open-weight (InternVL-Chat v1.5, LLaVA-Med v1.5, SkinGPT4, MedGemma-4B-Instruct) e GPT-4.1 su tre dataset pubblici e una coorte ospedaliera multi-sede di 5.811 casi con 46.405 immagini. Sui benchmark pubblici, GPT-4.1 ha raggiunto un'accuratezza diagnostica top-3 del 42,25%, mentre il miglior modello open-weight ha raggiunto il 26,55%. Nella coorte reale, le prestazioni sono diminuite sostanzialmente. Lo studio evidenzia il divario tra il successo nei benchmark e l'applicabilità clinica, sottolineando la necessità di una valutazione più rigorosa prima di implementare gli MLLM in dermatologia.
Fatti principali
- Valutati quattro MLLM open-weight e GPT-4.1
- Utilizzati tre dataset pubblici e una coorte ospedaliera di 5.811 casi
- La coorte ospedaliera includeva 46.405 immagini cliniche
- GPT-4.1 ha raggiunto un'accuratezza top-3 del 42,25% sui benchmark pubblici
- Il miglior modello open-weight ha raggiunto un'accuratezza top-3 del 26,55%
- Le prestazioni sono diminuite sostanzialmente nella coorte reale
- I compiti includevano diagnosi differenziale e triage basato sulla gravità
- Modelli testati: InternVL-Chat v1.5, LLaVA-Med v1.5, SkinGPT4, MedGemma-4B-Instruct, GPT-4.1
Entità
Istituzioni
- arXiv