Benchmarking dei Metodi per Dati Sintetici nell'Istruzione
Un nuovo studio da arXiv presenta il primo benchmark sistematico che confronta le tecniche tradizionali di ricampionamento e i modelli generativi profondi per dati sintetici nell'istruzione. Utilizzando un dataset di 10.000 record di performance studentesche, i ricercatori hanno valutato SMOTE, Bootstrap e Random Oversampling rispetto a Autoencoder, Variational Autoencoder e Copula-GAN. Le metriche includevano fedeltà distributiva (distanza di Kolmogorov-Smirnov, divergenza di Jensen-Shannon), utilità per il machine learning (punteggi Train-on-Synthetic-Test-on-Real) e preservazione della privacy (Distance to Closest Record). I risultati mostrano che i metodi di ricampionamento raggiungono un'utilità quasi perfetta (TSTR: 0,997) ma falliscono nella privacy (DCR ~ 0,00), mentre i modelli profondi offrono una migliore privacy a scapito dell'utilità. Lo studio fornisce una guida empirica per i professionisti nella scelta dei metodi per dati sintetici nella tecnologia educativa.
Fatti principali
- Primo benchmark sistematico che confronta ricampionamento e modelli generativi profondi per dati sintetici nell'istruzione
- Dataset: 10.000 record di performance studentesche
- Metodi di ricampionamento: SMOTE, Bootstrap, Random Oversampling
- Modelli di deep learning: Autoencoder, Variational Autoencoder, Copula-GAN
- Metriche di valutazione: distanza di Kolmogorov-Smirnov, divergenza di Jensen-Shannon, TSTR, Distance to Closest Record
- I metodi di ricampionamento hanno raggiunto TSTR di 0,997 ma DCR ~ 0,00
- I modelli profondi offrono una migliore privacy ma minore utilità
- Lo studio fornisce una guida empirica per la selezione di dati sintetici
Entità
Istituzioni
- arXiv