ViTC-UNet: Modello Ibrido per la Segmentazione di Immagini Mediche

ai-technology · 2026-05-20

I ricercatori hanno introdotto ViTC-UNet, una nuova architettura che combina Vision Transformers (ViTs) con UNet per la segmentazione semantica adattiva al dominio nell'imaging biomedico. Il modello affronta le lacune prestazionali dei ViT su target sparsi, a struttura fine e con basso rapporto segnale-rumore, condizionando una UNet su rappresentazioni ViT pre-addestrate congelate tramite token apprendibili e un decoder a due vie con attenzione. Questo approccio integra le priorità visive globali dei ViT con il bias induttivo locale e la decodifica ad alta risoluzione delle UNet, evitando il fine-tuning end-to-end. ViTC-UNet supera i baselines su modalità MRI e TC. L'articolo è disponibile su arXiv (2605.16393).

Fatti principali

ViTC-UNet condiziona una UNet su rappresentazioni ViT pre-addestrate congelate
Utilizza token apprendibili e un decoder a due vie con attenzione
Combina le priorità globali dei ViT con il bias induttivo locale delle UNet
Evita il fine-tuning end-to-end dei ViT in contesti cross-dominio
Supera i baselines nella segmentazione semantica su MRI e TC
Affronta il divario prestazionale per target sparsi e a struttura fine
Pubblicato su arXiv con ID 2605.16393
Target: analisi di immagini biomediche

ViTC-UNet: Modello Ibrido per la Segmentazione di Immagini Mediche

Fatti principali

Entità

Istituzioni

Fonti