VQA Ecografico Potenziato da Zoom Attivo e Consapevolezza dell'Incertezza

ai-technology · 2026-05-23

Un nuovo framework per il visual question answering (VQA) ecografico migliora le prestazioni dei modelli visione-linguaggio (VLM) imitando il flusso di lavoro cognitivo dei sonografi. L'approccio introduce un paradigma Zoom-e-Diagnosi che si concentra interattivamente sulle regioni delle lesioni prima della diagnosi, affrontando la mancanza di ragionamento strutturato focalizzato sulle lesioni nei VLM esistenti. Inoltre, incorpora ricompense basate sulla consapevolezza dell'incertezza nel framework di Ottimizzazione della Politica Relativa di Gruppo (GRPO) per tenere conto della soggettività e ambiguità intrinseche nelle annotazioni mediche, piuttosto che trattarle come verità di base imparziali. Questo lavoro, pubblicato come arXiv:2605.21652, mira a migliorare le prestazioni subottimali dei VLM in ecografia replicando il processo di ricerca interattivo della pratica clinica.

Fatti principali

Propone il paradigma Zoom-e-Diagnosi per il ragionamento focalizzato sulle lesioni
Utilizza ricompense basate sulla consapevolezza dell'incertezza nel framework GRPO
Affronta la soggettività nelle annotazioni mediche
Mira al miglioramento delle prestazioni del VQA ecografico
Pubblicato come arXiv:2605.21652
Replica il flusso di lavoro cognitivo del sonografo

VQA Ecografico Potenziato da Zoom Attivo e Consapevolezza dell'Incertezza

Fatti principali

Entità

Istituzioni

Fonti