L'integrale di entropia con segno rileva immagini etichettate erroneamente nel deep learning

ai-technology · 2026-06-01

Una nuova tecnica per identificare immagini etichettate in modo errato nei dataset di training utilizza una statistica di integrale di entropia con segno (SEI), che riflette sia la magnitudine che l'evoluzione temporale dell'entropia di previsione durante le epoche di training. I campioni con etichette accurate mostrano un costante declino dell'entropia, mentre quelli con etichette errate mantengono livelli elevati di entropia. Questo metodo è ampiamente applicabile alle reti di classificazione e si dimostra particolarmente efficace con le architetture CLIP. Test condotti su quattro dataset di imaging medico evidenziano la sua efficacia in un campo soggetto a imprecisioni di etichettatura.

Fatti principali

I campioni etichettati erroneamente degradano le prestazioni delle reti profonde a causa della memorizzazione di etichette errate.
I campioni con etichette corrette mostrano una diminuzione costante dell'entropia durante il training.
I campioni etichettati erroneamente mantengono un'entropia relativamente alta durante tutto il training.
L'integrale di entropia con segno (SEI) cattura la magnitudine e l'andamento temporale dell'entropia di previsione.
SEI è ampiamente applicabile alle reti di classificazione.
SEI è particolarmente efficace con le architetture di contrastive language-image pretraining (CLIP).
Gli esperimenti sono stati condotti su quattro dataset di imaging medico.
L'imaging medico è un dominio particolarmente suscettibile a errori di etichettatura.

Entità

—

Fonti

arXiv cs.AI — 2026-06-01