I VLM all'avanguardia falliscono i test di affidabilità clinica nell'audit di Medical VQA

ai-technology · 2026-05-01

Uno studio recente valuta cinque modelli avanzati di visione-linguaggio (VLM)—Gemini 2.5 Pro, GPT-5, o3, GLM-4.5V e Qwen 2.5 VL—focalizzati su compiti di risposta a domande visive mediche (Medical VQA), scoprendo carenze significative nei processi di percezione e integrazione. Il modello con le migliori prestazioni registra solo 0.23 di IoU medio e 19.1% di Acc@0.5 per la localizzazione sia anatomica che patologica, mostrando preoccupanti problemi di confusione di lateralità. L'implementazione di un pipeline di auto-ancoraggio, in cui lo stesso modello esegue localizzazione e risposta, riduce l'accuratezza del VQA per tutti i modelli a causa di imprecisioni nella localizzazione e problemi di conformità, con fallimenti di parsing che raggiungono il 70%–99% per Gemini e GPT-5 su VQA-RAD. L'utilizzo di annotazioni ground-truth invece di bounding box previste migliora l'accuratezza del VQA. Questi risultati evidenziano la necessità di pratiche verificabili nelle applicazioni cliniche di IA.

Fatti principali

Cinque VLM all'avanguardia sottoposti ad audit: Gemini 2.5 Pro, GPT-5, o3, GLM-4.5V, Qwen 2.5 VL.
Il miglior modello raggiunge solo 0.23 di IoU medio e 19.1% di Acc@0.5 per la localizzazione.
Il pipeline di auto-ancoraggio degrada l'accuratezza del VQA per tutti i modelli.
I fallimenti di parsing salgono al 70%–99% per Gemini e GPT-5 su VQA-RAD.
Le annotazioni ground-truth recuperano e migliorano l'accuratezza del VQA.
Osservata confusione di lateralità clinicamente pericolosa.
Lo studio si concentra sull'affidabilità del Medical VQA.
Pubblicato su arXiv (2604.27720).

I VLM all'avanguardia falliscono i test di affidabilità clinica nell'audit di Medical VQA

Fatti principali

Entità

Istituzioni

Fonti