Revisione Sistematica dei Metodi di Bilanciamento dei Dati per Dataset Sbilanciati
Una revisione sistematica approfondita incentrata sulle strategie per bilanciare dataset sbilanciati è stata pubblicata su arXiv. Questo articolo esamina metodi di oversampling fondamentali come SMOTE e le sue varianti (Borderline SMOTE, K-Means SMOTE, Safe-Level SMOTE), nonché tecniche adattive avanzate (MWMOTE, AMDO), modelli generativi profondi (GAN, VAE, modelli di diffusione), metodi di undersampling (NearMiss, Tomek Links), approcci ibridi (SMOTE-ENN, SMOTE-Tomek, SMOTE+OCSVM), tecniche ensemble (SMOTEBoost, RUSBoost, Balanced Random Forest, One-Sided Selection) e metodi specializzati per dati multi-etichetta e raggruppati. La ricerca affronta il problema persistente dello squilibrio di classe, che distorce le previsioni verso le classi maggioritarie e influisce negativamente sulle prestazioni del classificatore.
Fatti principali
- L'articolo è una revisione sistematica dei metodi di bilanciamento dei dati.
- Copre SMOTE e le sue varianti: Borderline SMOTE, K-Means SMOTE, Safe-Level SMOTE.
- I metodi adattivi avanzati includono MWMOTE e AMDO.
- I modelli generativi profondi includono GAN, VAE e modelli di diffusione.
- Le tecniche di undersampling includono NearMiss e Tomek Links.
- I metodi ibridi includono SMOTE-ENN, SMOTE-Tomek e SMOTE+OCSVM.
- Le strategie ensemble includono SMOTEBoost, RUSBoost, Balanced Random Forest e One-Sided Selection.
- Sono coperti approcci specializzati per dati multi-etichetta e raggruppati.
Entità
Istituzioni
- arXiv