BiomedAP: Framework a Doppio Ancoraggio per un Robusto Adattamento Visione-Linguaggio in Ambito Biomedico
Un team di ricercatori ha introdotto BiomedAP, un framework a doppio ancoraggio che utilizza una fusione cross-modale gated basata sulla visione per affrontare la sensibilità dei modelli visione-linguaggio biomedici (VLM) alle variazioni nei prompt. Gli attuali metodi di adattamento tendono a ottimizzare separatamente i prompt visivi e testuali, portando a un allineamento cross-modale incoerente in presenza di descrizioni cliniche rumorose. BiomedAP promuove un allineamento coeso attraverso una fusione cross-modale gated per interazioni a livello di strato, insieme a un vincolo di doppio ancoraggio che stabilizza i prompt verso centroidi semantici affidabili derivati da template esperti e pochi esempi. L'obiettivo principale di questo framework è migliorare la robustezza delle diagnosi mediche few-shot.
Fatti principali
- I VLM biomedici mostrano potenziale nella diagnosi medica few-shot ma sono fragili alle variazioni dei prompt.
- I framework esistenti ottimizzano i prompt visivi e testuali come flussi indipendenti.
- L'isolamento modale porta a un allineamento cross-modale instabile in descrizioni cliniche rumorose.
- BiomedAP utilizza una fusione cross-modale gated per la regolazione dinamica del rumore.
- Il vincolo di doppio ancoraggio regolarizza i prompt verso centroidi semantici stabili.
- Gli ancoraggi alti derivano da template esperti.
- Il framework mira a migliorare la robustezza nella realtà clinica.
- Proposto in arXiv:2605.15736.
Entità
—