I Modelli Linguistici Multimodali di Grandi Dimensioni Falliscono nella Dermatologia Reale

ai-technology · 2026-05-07

Uno studio che valuta i modelli linguistici multimodali di grandi dimensioni (MLLM) in compiti dermatologici reali rivela un calo significativo delle prestazioni rispetto ai benchmark pubblici. I ricercatori hanno testato quattro modelli open-weight (InternVL-Chat v1.5, LLaVA-Med v1.5, SkinGPT4, MedGemma-4B-Instruct) e GPT-4.1 su tre dataset pubblici e una coorte ospedaliera multi-sede di 5.811 casi con 46.405 immagini. Sui benchmark pubblici, GPT-4.1 ha raggiunto un'accuratezza diagnostica top-3 del 42,25%, mentre il miglior modello open-weight ha raggiunto il 26,55%. Nella coorte reale, le prestazioni sono diminuite sostanzialmente. Lo studio evidenzia il divario tra il successo nei benchmark e l'applicabilità clinica, sottolineando la necessità di una valutazione più rigorosa prima di implementare gli MLLM in dermatologia.

Fatti principali

Valutati quattro MLLM open-weight e GPT-4.1
Utilizzati tre dataset pubblici e una coorte ospedaliera di 5.811 casi
La coorte ospedaliera includeva 46.405 immagini cliniche
GPT-4.1 ha raggiunto un'accuratezza top-3 del 42,25% sui benchmark pubblici
Il miglior modello open-weight ha raggiunto un'accuratezza top-3 del 26,55%
Le prestazioni sono diminuite sostanzialmente nella coorte reale
I compiti includevano diagnosi differenziale e triage basato sulla gravità
Modelli testati: InternVL-Chat v1.5, LLaVA-Med v1.5, SkinGPT4, MedGemma-4B-Instruct, GPT-4.1

I Modelli Linguistici Multimodali di Grandi Dimensioni Falliscono nella Dermatologia Reale

Fatti principali

Entità

Istituzioni

Fonti