ARTFEED — Contemporary Art Intelligence

Gli Ensemble CNN-Transformer Migliorano la Classificazione Interpretabile della Retinopatia Diabetica

ai-technology · 2026-04-29

Un nuovo approccio integra modelli discriminativi con spiegazioni multimodali per la classificazione della retinopatia diabetica (DR), trasformando i pixel retinici in output clinicamente comprensibili. I ricercatori hanno valutato sei architetture basate su CNN e transformer utilizzando il benchmark APTOS 2019, impiegando una convalida incrociata stratificata a cinque fold. Hanno esplorato varie tecniche di ensemble, come voto duro, voto morbido pesato e stacking, esaminando anche un metodo ibrido di fusione a livello di classe per sfruttare i vantaggi specifici dei diversi gradi. Per migliorare l'interpretabilità, sono state generate mappe di attribuzione visiva Grad-CAM++ e brevi giustificazioni testuali attraverso modelli visione-linguaggio (VLM), basati su immagini del fundus e output del classificatore con vincoli di prompting conservativi.

Fatti principali

  • La metodologia combina modelli discriminativi con spiegazioni multimodali per la classificazione della DR
  • Valutate sei architetture basate su CNN e transformer sul benchmark APTOS 2019
  • Utilizzata convalida incrociata stratificata a cinque fold
  • Confrontate strategie di ensemble: voto duro, voto morbido pesato e stacking
  • Esaminata una variante ibrida di fusione a livello di classe
  • Prodotte mappe di attribuzione visiva Grad-CAM++
  • Generati brevi razionali testuali utilizzando modelli visione-linguaggio
  • I VLM sono stati condizionati sull'immagine del fundus e sugli output del classificatore con prompting conservativo

Entità

Istituzioni

  • arXiv

Fonti