ARTFEED — Contemporary Art Intelligence

Benchmarking dei Metodi per Dati Sintetici nell'Istruzione

publication · 2026-04-25

Un nuovo studio da arXiv presenta il primo benchmark sistematico che confronta le tecniche tradizionali di ricampionamento e i modelli generativi profondi per dati sintetici nell'istruzione. Utilizzando un dataset di 10.000 record di performance studentesche, i ricercatori hanno valutato SMOTE, Bootstrap e Random Oversampling rispetto a Autoencoder, Variational Autoencoder e Copula-GAN. Le metriche includevano fedeltà distributiva (distanza di Kolmogorov-Smirnov, divergenza di Jensen-Shannon), utilità per il machine learning (punteggi Train-on-Synthetic-Test-on-Real) e preservazione della privacy (Distance to Closest Record). I risultati mostrano che i metodi di ricampionamento raggiungono un'utilità quasi perfetta (TSTR: 0,997) ma falliscono nella privacy (DCR ~ 0,00), mentre i modelli profondi offrono una migliore privacy a scapito dell'utilità. Lo studio fornisce una guida empirica per i professionisti nella scelta dei metodi per dati sintetici nella tecnologia educativa.

Fatti principali

  • Primo benchmark sistematico che confronta ricampionamento e modelli generativi profondi per dati sintetici nell'istruzione
  • Dataset: 10.000 record di performance studentesche
  • Metodi di ricampionamento: SMOTE, Bootstrap, Random Oversampling
  • Modelli di deep learning: Autoencoder, Variational Autoencoder, Copula-GAN
  • Metriche di valutazione: distanza di Kolmogorov-Smirnov, divergenza di Jensen-Shannon, TSTR, Distance to Closest Record
  • I metodi di ricampionamento hanno raggiunto TSTR di 0,997 ma DCR ~ 0,00
  • I modelli profondi offrono una migliore privacy ma minore utilità
  • Lo studio fornisce una guida empirica per la selezione di dati sintetici

Entità

Istituzioni

  • arXiv

Fonti