Modello Visione-Linguaggio Token-Efficiente per la Generazione di Referti Patologici
Un nuovo modello visione-linguaggio token-efficiente genera referti patologici sinottici a partire da immagini di interi vetrini. Il modello gestisce risoluzione gigapixel e più vetrini per caso utilizzando un encoder di patch patologiche congelato, un allineatore MLP a due strati e un decoder LLM con token marker WSI. L'addestramento avviene in due fasi: didascalia WSI su coppie eterogenee, poi messa a punto a livello di caso su coppie di referti. L'approccio riduce le sequenze di token visivi per adattarsi alla memoria GPU vincolata.
Fatti principali
- Il modello genera referti patologici sinottici a livello di caso da immagini di interi vetrini
- Architettura: encoder di patch patologiche congelato, allineatore MLP a due strati, decoder LLM
- Token marker WSI esplicito separa i vetrini all'interno di un caso
- Addestramento supervisionato in due fasi: didascalia WSI poi messa a punto a livello di caso
- Progettato per memoria GPU vincolata
- Affronta risoluzione gigapixel e lunghe sequenze di token visivi
- Gestisce tessuti eterogenei e risultati ambigui
- Pubblicato su arXiv come 2605.30716v1
Entità
Istituzioni
- arXiv