Dati di indagine generati da LLM testati per la sintesi di popolazione
Una ricerca valuta la fattibilità dell'utilizzo di dati sanitari generati da modelli linguistici di grandi dimensioni (LLM) zero-shot come sostituto dei dati reali nel contesto della sintesi di popolazione geograficamente esplicita. Utilizzando GPT-4.1 e Gemini-2.5-Pro, gli scienziati hanno generato dataset sintetici per Colorado e Mississippi, facendo riferimento al Behavioral Risk Factor Surveillance System (BRFSS) 2023. Questi dataset sono stati incorporati in un framework di fitting proporzionale iterativo (IPF) per sviluppare popolazioni sintetiche a livello di census tract. I risultati hanno rivelato che entrambi gli LLM hanno catturato efficacemente significative differenze a livello statale, dimostrando che la generazione zero-shot può produrre dati geograficamente distinti. Tuttavia, lo studio sottolinea le prestazioni variabili e le potenzialità, nonché i limiti, degli LLM nella generazione di dati demografici sintetici.
Fatti principali
- Lo studio utilizza dati sanitari generati da LLM zero-shot per la sintesi di popolazione.
- Modelli testati: GPT-4.1 e Gemini-2.5-Pro.
- Fonte dati: Behavioral Risk Factor Surveillance System (BRFSS) 2023.
- Focus geografico: Colorado e Mississippi, USA.
- Metodo: pipeline di fitting proporzionale iterativo (IPF).
- Risultato: gli LLM hanno catturato le principali differenze tra stati.
- Limitazioni: prestazioni non completamente confrontate.
- Pubblicato su arXiv: 2605.27401.
Entità
Istituzioni
- arXiv
Luoghi
- Colorado
- Mississippi
- United States