ARTFEED — Contemporary Art Intelligence

Modello Visione-Linguaggio Token-Efficiente per la Generazione di Referti Patologici

other · 2026-06-01

Un nuovo modello visione-linguaggio token-efficiente genera referti patologici sinottici a partire da immagini di interi vetrini. Il modello gestisce risoluzione gigapixel e più vetrini per caso utilizzando un encoder di patch patologiche congelato, un allineatore MLP a due strati e un decoder LLM con token marker WSI. L'addestramento avviene in due fasi: didascalia WSI su coppie eterogenee, poi messa a punto a livello di caso su coppie di referti. L'approccio riduce le sequenze di token visivi per adattarsi alla memoria GPU vincolata.

Fatti principali

  • Il modello genera referti patologici sinottici a livello di caso da immagini di interi vetrini
  • Architettura: encoder di patch patologiche congelato, allineatore MLP a due strati, decoder LLM
  • Token marker WSI esplicito separa i vetrini all'interno di un caso
  • Addestramento supervisionato in due fasi: didascalia WSI poi messa a punto a livello di caso
  • Progettato per memoria GPU vincolata
  • Affronta risoluzione gigapixel e lunghe sequenze di token visivi
  • Gestisce tessuti eterogenei e risultati ambigui
  • Pubblicato su arXiv come 2605.30716v1

Entità

Istituzioni

  • arXiv

Fonti