ARTFEED — Contemporary Art Intelligence

MED-VRAG: RAG multimodale iterativo per QA medica

other · 2026-05-01

I ricercatori hanno presentato un nuovo sistema chiamato MED-VRAG, che utilizza un metodo unico che combina diverse tecniche di recupero per concentrarsi sull'analisi delle immagini delle pagine dei documenti PMC invece del testo convertito da OCR. Questo approccio innovativo incorpora gli embedding a livello di patch di ColQwen2.5 e un filtro LLM MapReduce, consentendo di gestire circa 350.000 pagine mantenendo il tempo di recupero iniziale sotto i 30 millisecondi grazie a un indice appositamente progettato. Un modello visione-linguaggio migliora ulteriormente il processo affinando le query e raccogliendo prove in tre cicli di ragionamento, impiegando circa 15,9 secondi per ciclo, per un totale di 47,8 secondi necessari per tutti e tre i cicli su 4xA100. L'efficacia del sistema viene valutata rispetto a quattro benchmark di QA medica: MedQA, MedMCQA, PubMedQA e MMLU-M.

Fatti principali

  • MED-VRAG è un framework RAG multimodale iterativo.
  • Recupera e ragiona sulle immagini delle pagine dei documenti PMC.
  • Utilizza gli embedding a livello di patch di ColQwen2.5.
  • Impiega un filtro LLM MapReduce frammentato.
  • Scala fino a ~350.000 pagine.
  • Recupero di Fase 1 sotto i 30 ms tramite indice grossolano-fine.
  • Il VLM affina iterativamente la query fino a 3 cicli.
  • Valutato su MedQA, MedMCQA, PubMedQA, MMLU-M.

Entità

Istituzioni

  • arXiv

Fonti