ViTC-UNet: Modello Ibrido per la Segmentazione di Immagini Mediche
I ricercatori hanno introdotto ViTC-UNet, una nuova architettura che combina Vision Transformers (ViTs) con UNet per la segmentazione semantica adattiva al dominio nell'imaging biomedico. Il modello affronta le lacune prestazionali dei ViT su target sparsi, a struttura fine e con basso rapporto segnale-rumore, condizionando una UNet su rappresentazioni ViT pre-addestrate congelate tramite token apprendibili e un decoder a due vie con attenzione. Questo approccio integra le priorità visive globali dei ViT con il bias induttivo locale e la decodifica ad alta risoluzione delle UNet, evitando il fine-tuning end-to-end. ViTC-UNet supera i baselines su modalità MRI e TC. L'articolo è disponibile su arXiv (2605.16393).
Fatti principali
- ViTC-UNet condiziona una UNet su rappresentazioni ViT pre-addestrate congelate
- Utilizza token apprendibili e un decoder a due vie con attenzione
- Combina le priorità globali dei ViT con il bias induttivo locale delle UNet
- Evita il fine-tuning end-to-end dei ViT in contesti cross-dominio
- Supera i baselines nella segmentazione semantica su MRI e TC
- Affronta il divario prestazionale per target sparsi e a struttura fine
- Pubblicato su arXiv con ID 2605.16393
- Target: analisi di immagini biomediche
Entità
Istituzioni
- arXiv