ReXSonoVQA: Benchmarking dei VLM nella Comprensione di Video Ecografici
I ricercatori hanno lanciato un nuovo benchmark chiamato ReXSonoVQA volto a valutare i modelli visione-linguaggio (VLM) nelle applicazioni ecografiche. Questo set di dati è composto da 514 clip video, con relative domande: 249 in formato a scelta multipla e 265 come domande aperte. Il benchmark si concentra su tre aspetti significativi: comprensione degli obiettivi delle azioni, risoluzione degli artefatti e pianificazione contestuale delle procedure. Le valutazioni condotte su vari modelli, tra cui Gemini 3 Pro, Qwen 3.5-397B, LLaVA-Video-72B e Seed 2.0 Pro, hanno evidenziato che, sebbene questi modelli abbiano acquisito una certa comprensione procedurale, hanno incontrato difficoltà negli scenari di risoluzione dei problemi, mostrando miglioramenti minimi rispetto alle valutazioni tradizionali basate su testo.
Fatti principali
- ReXSonoVQA è un benchmark di domande e risposte video per la comprensione ecografica incentrata sulle procedure.
- Contiene 514 clip video e 514 domande (249 a scelta multipla, 265 a risposta libera).
- Sono mirate tre competenze: Ragionamento sugli Obiettivi delle Azioni, Risoluzione e Ottimizzazione degli Artefatti, Contesto e Pianificazione delle Procedure.
- Modelli valutati: Gemini 3 Pro, Qwen3.5-397B, LLaVA-Video-72B, Seed 2.0 Pro.
- I VLM mostrano prestazioni limitate nelle domande di risoluzione dei problemi.
- Miglioramenti minimi rispetto alle baseline solo testo nel ragionamento causale.
- Il benchmark mira a consentire sistemi ecografici autonomi.
- Pubblicato su arXiv (2604.10916).
Entità
Istituzioni
- arXiv