Gli Ensemble CNN-Transformer Migliorano la Classificazione Interpretabile della Retinopatia Diabetica

ai-technology · 2026-04-29

Un nuovo approccio integra modelli discriminativi con spiegazioni multimodali per la classificazione della retinopatia diabetica (DR), trasformando i pixel retinici in output clinicamente comprensibili. I ricercatori hanno valutato sei architetture basate su CNN e transformer utilizzando il benchmark APTOS 2019, impiegando una convalida incrociata stratificata a cinque fold. Hanno esplorato varie tecniche di ensemble, come voto duro, voto morbido pesato e stacking, esaminando anche un metodo ibrido di fusione a livello di classe per sfruttare i vantaggi specifici dei diversi gradi. Per migliorare l'interpretabilità, sono state generate mappe di attribuzione visiva Grad-CAM++ e brevi giustificazioni testuali attraverso modelli visione-linguaggio (VLM), basati su immagini del fundus e output del classificatore con vincoli di prompting conservativi.

Fatti principali

La metodologia combina modelli discriminativi con spiegazioni multimodali per la classificazione della DR
Valutate sei architetture basate su CNN e transformer sul benchmark APTOS 2019
Utilizzata convalida incrociata stratificata a cinque fold
Confrontate strategie di ensemble: voto duro, voto morbido pesato e stacking
Esaminata una variante ibrida di fusione a livello di classe
Prodotte mappe di attribuzione visiva Grad-CAM++
Generati brevi razionali testuali utilizzando modelli visione-linguaggio
I VLM sono stati condizionati sull'immagine del fundus e sugli output del classificatore con prompting conservativo

Gli Ensemble CNN-Transformer Migliorano la Classificazione Interpretabile della Retinopatia Diabetica

Fatti principali

Entità

Istituzioni

Fonti