ARTFEED — Contemporary Art Intelligence

I VLM all'avanguardia falliscono i test di affidabilità clinica nell'audit di Medical VQA

ai-technology · 2026-05-01

Uno studio recente valuta cinque modelli avanzati di visione-linguaggio (VLM)—Gemini 2.5 Pro, GPT-5, o3, GLM-4.5V e Qwen 2.5 VL—focalizzati su compiti di risposta a domande visive mediche (Medical VQA), scoprendo carenze significative nei processi di percezione e integrazione. Il modello con le migliori prestazioni registra solo 0.23 di IoU medio e 19.1% di Acc@0.5 per la localizzazione sia anatomica che patologica, mostrando preoccupanti problemi di confusione di lateralità. L'implementazione di un pipeline di auto-ancoraggio, in cui lo stesso modello esegue localizzazione e risposta, riduce l'accuratezza del VQA per tutti i modelli a causa di imprecisioni nella localizzazione e problemi di conformità, con fallimenti di parsing che raggiungono il 70%–99% per Gemini e GPT-5 su VQA-RAD. L'utilizzo di annotazioni ground-truth invece di bounding box previste migliora l'accuratezza del VQA. Questi risultati evidenziano la necessità di pratiche verificabili nelle applicazioni cliniche di IA.

Fatti principali

  • Cinque VLM all'avanguardia sottoposti ad audit: Gemini 2.5 Pro, GPT-5, o3, GLM-4.5V, Qwen 2.5 VL.
  • Il miglior modello raggiunge solo 0.23 di IoU medio e 19.1% di Acc@0.5 per la localizzazione.
  • Il pipeline di auto-ancoraggio degrada l'accuratezza del VQA per tutti i modelli.
  • I fallimenti di parsing salgono al 70%–99% per Gemini e GPT-5 su VQA-RAD.
  • Le annotazioni ground-truth recuperano e migliorano l'accuratezza del VQA.
  • Osservata confusione di lateralità clinicamente pericolosa.
  • Lo studio si concentra sull'affidabilità del Medical VQA.
  • Pubblicato su arXiv (2604.27720).

Entità

Istituzioni

  • arXiv

Fonti