ARTFEED — Contemporary Art Intelligence

VQA Ecografico Potenziato da Zoom Attivo e Consapevolezza dell'Incertezza

ai-technology · 2026-05-23

Un nuovo framework per il visual question answering (VQA) ecografico migliora le prestazioni dei modelli visione-linguaggio (VLM) imitando il flusso di lavoro cognitivo dei sonografi. L'approccio introduce un paradigma Zoom-e-Diagnosi che si concentra interattivamente sulle regioni delle lesioni prima della diagnosi, affrontando la mancanza di ragionamento strutturato focalizzato sulle lesioni nei VLM esistenti. Inoltre, incorpora ricompense basate sulla consapevolezza dell'incertezza nel framework di Ottimizzazione della Politica Relativa di Gruppo (GRPO) per tenere conto della soggettività e ambiguità intrinseche nelle annotazioni mediche, piuttosto che trattarle come verità di base imparziali. Questo lavoro, pubblicato come arXiv:2605.21652, mira a migliorare le prestazioni subottimali dei VLM in ecografia replicando il processo di ricerca interattivo della pratica clinica.

Fatti principali

  • Propone il paradigma Zoom-e-Diagnosi per il ragionamento focalizzato sulle lesioni
  • Utilizza ricompense basate sulla consapevolezza dell'incertezza nel framework GRPO
  • Affronta la soggettività nelle annotazioni mediche
  • Mira al miglioramento delle prestazioni del VQA ecografico
  • Pubblicato come arXiv:2605.21652
  • Replica il flusso di lavoro cognitivo del sonografo

Entità

Istituzioni

  • arXiv

Fonti