Dati di indagine generati da LLM testati per la sintesi di popolazione

ai-technology · 2026-05-28

Una ricerca valuta la fattibilità dell'utilizzo di dati sanitari generati da modelli linguistici di grandi dimensioni (LLM) zero-shot come sostituto dei dati reali nel contesto della sintesi di popolazione geograficamente esplicita. Utilizzando GPT-4.1 e Gemini-2.5-Pro, gli scienziati hanno generato dataset sintetici per Colorado e Mississippi, facendo riferimento al Behavioral Risk Factor Surveillance System (BRFSS) 2023. Questi dataset sono stati incorporati in un framework di fitting proporzionale iterativo (IPF) per sviluppare popolazioni sintetiche a livello di census tract. I risultati hanno rivelato che entrambi gli LLM hanno catturato efficacemente significative differenze a livello statale, dimostrando che la generazione zero-shot può produrre dati geograficamente distinti. Tuttavia, lo studio sottolinea le prestazioni variabili e le potenzialità, nonché i limiti, degli LLM nella generazione di dati demografici sintetici.

Fatti principali

Lo studio utilizza dati sanitari generati da LLM zero-shot per la sintesi di popolazione.
Modelli testati: GPT-4.1 e Gemini-2.5-Pro.
Fonte dati: Behavioral Risk Factor Surveillance System (BRFSS) 2023.
Focus geografico: Colorado e Mississippi, USA.
Metodo: pipeline di fitting proporzionale iterativo (IPF).
Risultato: gli LLM hanno catturato le principali differenze tra stati.
Limitazioni: prestazioni non completamente confrontate.
Pubblicato su arXiv: 2605.27401.

Entità

Istituzioni

arXiv

Luoghi

Colorado
Mississippi
United States

Fonti

arXiv cs.AI — 2026-05-28