BiomedAP: Framework a Doppio Ancoraggio per un Robusto Adattamento Visione-Linguaggio in Ambito Biomedico

ai-technology · 2026-05-18

Un team di ricercatori ha introdotto BiomedAP, un framework a doppio ancoraggio che utilizza una fusione cross-modale gated basata sulla visione per affrontare la sensibilità dei modelli visione-linguaggio biomedici (VLM) alle variazioni nei prompt. Gli attuali metodi di adattamento tendono a ottimizzare separatamente i prompt visivi e testuali, portando a un allineamento cross-modale incoerente in presenza di descrizioni cliniche rumorose. BiomedAP promuove un allineamento coeso attraverso una fusione cross-modale gated per interazioni a livello di strato, insieme a un vincolo di doppio ancoraggio che stabilizza i prompt verso centroidi semantici affidabili derivati da template esperti e pochi esempi. L'obiettivo principale di questo framework è migliorare la robustezza delle diagnosi mediche few-shot.

Fatti principali

I VLM biomedici mostrano potenziale nella diagnosi medica few-shot ma sono fragili alle variazioni dei prompt.
I framework esistenti ottimizzano i prompt visivi e testuali come flussi indipendenti.
L'isolamento modale porta a un allineamento cross-modale instabile in descrizioni cliniche rumorose.
BiomedAP utilizza una fusione cross-modale gated per la regolazione dinamica del rumore.
Il vincolo di doppio ancoraggio regolarizza i prompt verso centroidi semantici stabili.
Gli ancoraggi alti derivano da template esperti.
Il framework mira a migliorare la robustezza nella realtà clinica.
Proposto in arXiv:2605.15736.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18