Rischi dei Dati Sintetici per l'Inferenza Causale
Uno studio recente pubblicato su arXiv (2604.23904) indica che i dati sintetici generativi, come quelli derivati da modelli GAN e LLM, possono distorcere gli stimatori causali come l'effetto medio del trattamento (ATE), nonostante raggiungano un'elevata accuratezza predittiva. I ricercatori articolano questo problema attraverso analisi di sensibilità e risultati di compromesso, dimostrando che mantenere l'ATE richiede la gestione sia della distribuzione delle covariate generate sia della differenza dell'effetto del trattamento. Per affrontare ciò, introducono un framework ibrido che genera covariate indipendentemente dai processi di trattamento e risultato, impiegando diagnostiche di distanza dal record più vicino insieme a modelli di disturbo separati.
Fatti principali
- Articolo arXiv 2604.23904
- I sintetizzatori tabulari generativi distorcono l'ATE
- Modelli basati su GAN e LLM testati
- Osservata forte performance train-on-synthetic-test-on-real
- La preservazione dell'ATE richiede il controllo della legge delle covariate e del contrasto dell'effetto del trattamento
- Proposto un framework ibrido
- Utilizzate diagnostiche di distanza dal record più vicino
- Modelli di disturbo appresi separatamente per triplette (W, A, Y)
Entità
Istituzioni
- arXiv