ARTFEED — Contemporary Art Intelligence

Revisione Sistematica dei Metodi di Bilanciamento dei Dati per Dataset Sbilanciati

publication · 2026-04-30

Una revisione sistematica approfondita incentrata sulle strategie per bilanciare dataset sbilanciati è stata pubblicata su arXiv. Questo articolo esamina metodi di oversampling fondamentali come SMOTE e le sue varianti (Borderline SMOTE, K-Means SMOTE, Safe-Level SMOTE), nonché tecniche adattive avanzate (MWMOTE, AMDO), modelli generativi profondi (GAN, VAE, modelli di diffusione), metodi di undersampling (NearMiss, Tomek Links), approcci ibridi (SMOTE-ENN, SMOTE-Tomek, SMOTE+OCSVM), tecniche ensemble (SMOTEBoost, RUSBoost, Balanced Random Forest, One-Sided Selection) e metodi specializzati per dati multi-etichetta e raggruppati. La ricerca affronta il problema persistente dello squilibrio di classe, che distorce le previsioni verso le classi maggioritarie e influisce negativamente sulle prestazioni del classificatore.

Fatti principali

  • L'articolo è una revisione sistematica dei metodi di bilanciamento dei dati.
  • Copre SMOTE e le sue varianti: Borderline SMOTE, K-Means SMOTE, Safe-Level SMOTE.
  • I metodi adattivi avanzati includono MWMOTE e AMDO.
  • I modelli generativi profondi includono GAN, VAE e modelli di diffusione.
  • Le tecniche di undersampling includono NearMiss e Tomek Links.
  • I metodi ibridi includono SMOTE-ENN, SMOTE-Tomek e SMOTE+OCSVM.
  • Le strategie ensemble includono SMOTEBoost, RUSBoost, Balanced Random Forest e One-Sided Selection.
  • Sono coperti approcci specializzati per dati multi-etichetta e raggruppati.

Entità

Istituzioni

  • arXiv

Fonti