Modello Visione-Linguaggio Token-Efficiente per la Generazione di Referti Patologici

other · 2026-06-01

Un nuovo modello visione-linguaggio token-efficiente genera referti patologici sinottici a partire da immagini di interi vetrini. Il modello gestisce risoluzione gigapixel e più vetrini per caso utilizzando un encoder di patch patologiche congelato, un allineatore MLP a due strati e un decoder LLM con token marker WSI. L'addestramento avviene in due fasi: didascalia WSI su coppie eterogenee, poi messa a punto a livello di caso su coppie di referti. L'approccio riduce le sequenze di token visivi per adattarsi alla memoria GPU vincolata.

Fatti principali

Il modello genera referti patologici sinottici a livello di caso da immagini di interi vetrini
Architettura: encoder di patch patologiche congelato, allineatore MLP a due strati, decoder LLM
Token marker WSI esplicito separa i vetrini all'interno di un caso
Addestramento supervisionato in due fasi: didascalia WSI poi messa a punto a livello di caso
Progettato per memoria GPU vincolata
Affronta risoluzione gigapixel e lunghe sequenze di token visivi
Gestisce tessuti eterogenei e risultati ambigui
Pubblicato su arXiv come 2605.30716v1

Modello Visione-Linguaggio Token-Efficiente per la Generazione di Referti Patologici

Fatti principali

Entità

Istituzioni

Fonti