Indagine sui modelli di diffusione e flow matching per dati tabulari

publication · 2026-05-25

Una nuova indagine pubblicata su arXiv esplora l'applicazione dei modelli di diffusione e flow matching alla generazione di dati tabulari. Mentre i modelli generativi profondi hanno eccelso nei domini di immagini, testo, audio e video, i dati tabulari rimangono impegnativi a causa di attributi numerici e categorici misti, valori mancanti, categorie sbilanciate e dipendenze complesse. I metodi precedenti che utilizzavano GAN o VAE soffrivano di training instabile e collasso della modalità. I modelli di diffusione, con il loro framework di aggiunta e rimozione del rumore, offrono un'alternativa flessibile e stabile per compiti come la sintesi tabulare, l'imputazione di valori mancanti e il rilevamento di anomalie. L'indagine copre gli adattamenti recenti e mette in luce il potenziale del flow matching come alternativa efficiente. Il paper è disponibile su arXiv:2502.17119.

Fatti principali

ID del paper arXiv: 2502.17119
L'indagine si concentra sui modelli di diffusione e flow matching per dati tabulari
I dati tabulari includono attributi numerici e categorici, valori mancanti, categorie sbilanciate
GAN e VAE hanno limitazioni: training instabile, collasso della modalità, debole modellazione multimodale
I modelli di diffusione utilizzano una formulazione di aggiunta e rimozione del rumore
Applicazioni: sintesi tabulare, imputazione di valori mancanti, generazione di dati affidabili, rilevamento di anomalie
Il flow matching è menzionato come alternativa efficiente
Pubblicato su arXiv (tipo di annuncio replace-cross)

Indagine sui modelli di diffusione e flow matching per dati tabulari

Fatti principali

Entità

Istituzioni

Fonti