Rischi dei Dati Sintetici per l'Inferenza Causale

other · 2026-04-29

Uno studio recente pubblicato su arXiv (2604.23904) indica che i dati sintetici generativi, come quelli derivati da modelli GAN e LLM, possono distorcere gli stimatori causali come l'effetto medio del trattamento (ATE), nonostante raggiungano un'elevata accuratezza predittiva. I ricercatori articolano questo problema attraverso analisi di sensibilità e risultati di compromesso, dimostrando che mantenere l'ATE richiede la gestione sia della distribuzione delle covariate generate sia della differenza dell'effetto del trattamento. Per affrontare ciò, introducono un framework ibrido che genera covariate indipendentemente dai processi di trattamento e risultato, impiegando diagnostiche di distanza dal record più vicino insieme a modelli di disturbo separati.

Fatti principali

Articolo arXiv 2604.23904
I sintetizzatori tabulari generativi distorcono l'ATE
Modelli basati su GAN e LLM testati
Osservata forte performance train-on-synthetic-test-on-real
La preservazione dell'ATE richiede il controllo della legge delle covariate e del contrasto dell'effetto del trattamento
Proposto un framework ibrido
Utilizzate diagnostiche di distanza dal record più vicino
Modelli di disturbo appresi separatamente per triplette (W, A, Y)

Rischi dei Dati Sintetici per l'Inferenza Causale

Fatti principali

Entità

Istituzioni

Fonti