Indagine sui modelli di diffusione e flow matching per dati tabulari
Una nuova indagine pubblicata su arXiv esplora l'applicazione dei modelli di diffusione e flow matching alla generazione di dati tabulari. Mentre i modelli generativi profondi hanno eccelso nei domini di immagini, testo, audio e video, i dati tabulari rimangono impegnativi a causa di attributi numerici e categorici misti, valori mancanti, categorie sbilanciate e dipendenze complesse. I metodi precedenti che utilizzavano GAN o VAE soffrivano di training instabile e collasso della modalità. I modelli di diffusione, con il loro framework di aggiunta e rimozione del rumore, offrono un'alternativa flessibile e stabile per compiti come la sintesi tabulare, l'imputazione di valori mancanti e il rilevamento di anomalie. L'indagine copre gli adattamenti recenti e mette in luce il potenziale del flow matching come alternativa efficiente. Il paper è disponibile su arXiv:2502.17119.
Fatti principali
- ID del paper arXiv: 2502.17119
- L'indagine si concentra sui modelli di diffusione e flow matching per dati tabulari
- I dati tabulari includono attributi numerici e categorici, valori mancanti, categorie sbilanciate
- GAN e VAE hanno limitazioni: training instabile, collasso della modalità, debole modellazione multimodale
- I modelli di diffusione utilizzano una formulazione di aggiunta e rimozione del rumore
- Applicazioni: sintesi tabulare, imputazione di valori mancanti, generazione di dati affidabili, rilevamento di anomalie
- Il flow matching è menzionato come alternativa efficiente
- Pubblicato su arXiv (tipo di annuncio replace-cross)
Entità
Istituzioni
- arXiv