ARTFEED — Contemporary Art Intelligence

ViTC-UNet: Modello Ibrido per la Segmentazione di Immagini Mediche

ai-technology · 2026-05-20

I ricercatori hanno introdotto ViTC-UNet, una nuova architettura che combina Vision Transformers (ViTs) con UNet per la segmentazione semantica adattiva al dominio nell'imaging biomedico. Il modello affronta le lacune prestazionali dei ViT su target sparsi, a struttura fine e con basso rapporto segnale-rumore, condizionando una UNet su rappresentazioni ViT pre-addestrate congelate tramite token apprendibili e un decoder a due vie con attenzione. Questo approccio integra le priorità visive globali dei ViT con il bias induttivo locale e la decodifica ad alta risoluzione delle UNet, evitando il fine-tuning end-to-end. ViTC-UNet supera i baselines su modalità MRI e TC. L'articolo è disponibile su arXiv (2605.16393).

Fatti principali

  • ViTC-UNet condiziona una UNet su rappresentazioni ViT pre-addestrate congelate
  • Utilizza token apprendibili e un decoder a due vie con attenzione
  • Combina le priorità globali dei ViT con il bias induttivo locale delle UNet
  • Evita il fine-tuning end-to-end dei ViT in contesti cross-dominio
  • Supera i baselines nella segmentazione semantica su MRI e TC
  • Affronta il divario prestazionale per target sparsi e a struttura fine
  • Pubblicato su arXiv con ID 2605.16393
  • Target: analisi di immagini biomediche

Entità

Istituzioni

  • arXiv

Fonti