Benchmarking dei Metodi per Dati Sintetici nell'Istruzione

publication · 2026-04-25

Un nuovo studio da arXiv presenta il primo benchmark sistematico che confronta le tecniche tradizionali di ricampionamento e i modelli generativi profondi per dati sintetici nell'istruzione. Utilizzando un dataset di 10.000 record di performance studentesche, i ricercatori hanno valutato SMOTE, Bootstrap e Random Oversampling rispetto a Autoencoder, Variational Autoencoder e Copula-GAN. Le metriche includevano fedeltà distributiva (distanza di Kolmogorov-Smirnov, divergenza di Jensen-Shannon), utilità per il machine learning (punteggi Train-on-Synthetic-Test-on-Real) e preservazione della privacy (Distance to Closest Record). I risultati mostrano che i metodi di ricampionamento raggiungono un'utilità quasi perfetta (TSTR: 0,997) ma falliscono nella privacy (DCR ~ 0,00), mentre i modelli profondi offrono una migliore privacy a scapito dell'utilità. Lo studio fornisce una guida empirica per i professionisti nella scelta dei metodi per dati sintetici nella tecnologia educativa.

Fatti principali

Primo benchmark sistematico che confronta ricampionamento e modelli generativi profondi per dati sintetici nell'istruzione
Dataset: 10.000 record di performance studentesche
Metodi di ricampionamento: SMOTE, Bootstrap, Random Oversampling
Modelli di deep learning: Autoencoder, Variational Autoencoder, Copula-GAN
Metriche di valutazione: distanza di Kolmogorov-Smirnov, divergenza di Jensen-Shannon, TSTR, Distance to Closest Record
I metodi di ricampionamento hanno raggiunto TSTR di 0,997 ma DCR ~ 0,00
I modelli profondi offrono una migliore privacy ma minore utilità
Lo studio fornisce una guida empirica per la selezione di dati sintetici

Benchmarking dei Metodi per Dati Sintetici nell'Istruzione

Fatti principali

Entità

Istituzioni

Fonti