Il framework TARDIS colma il divario tra dati sintetici e reali nella generazione di dati tabulari
Un nuovo framework per il raffinamento durante l'inferenza, chiamato TARDIS (Tabular generation through Refinement, Distillation, and Inference-time Sampling), è stato sviluppato per colmare il divario tra la generazione di dati tabulari sintetici e reali. A differenza dei metodi precedenti che si concentravano sui miglioramenti durante l'addestramento, TARDIS utilizza un backbone pre-addestrato fisso e impiega un estimatore di Parzen a struttura ad albero per guidare le ricerche a livello di punteggio nella diffusione inversa. Inoltre, il framework presenta selettori di campioni post-hoc e un passaggio opzionale per la distillazione a etichette morbide. Questo approccio innovativo raggiunge risultati all'avanguardia nell'utilità dei dati tabulari sintetici, superando persino i dati reali in alcuni casi. I risultati sono stati condivisi su arXiv con l'identificatore 2605.06261.
Fatti principali
- TARDIS è un framework di raffinamento durante l'inferenza per la generazione di dati tabulari.
- Opera su un backbone pre-addestrato congelato.
- Utilizza la ricerca dell'estimatore di Parzen a struttura ad albero sulla guida a livello di punteggio.
- Include selettori di campioni post-hoc e distillazione opzionale a etichette morbide.
- Colma il divario sintetico-reale nei modelli di diffusione tabulari.
- Pubblicato su arXiv con ID 2605.06261.
- Raggiunge l'utilità all'avanguardia per i dati tabulari sintetici.
- Supera l'utilità dei dati reali in alcuni casi.
Entità
Istituzioni
- arXiv