ARTFEED — Contemporary Art Intelligence

Dati di indagine generati da LLM testati per la sintesi di popolazione

ai-technology · 2026-05-28

Una ricerca valuta la fattibilità dell'utilizzo di dati sanitari generati da modelli linguistici di grandi dimensioni (LLM) zero-shot come sostituto dei dati reali nel contesto della sintesi di popolazione geograficamente esplicita. Utilizzando GPT-4.1 e Gemini-2.5-Pro, gli scienziati hanno generato dataset sintetici per Colorado e Mississippi, facendo riferimento al Behavioral Risk Factor Surveillance System (BRFSS) 2023. Questi dataset sono stati incorporati in un framework di fitting proporzionale iterativo (IPF) per sviluppare popolazioni sintetiche a livello di census tract. I risultati hanno rivelato che entrambi gli LLM hanno catturato efficacemente significative differenze a livello statale, dimostrando che la generazione zero-shot può produrre dati geograficamente distinti. Tuttavia, lo studio sottolinea le prestazioni variabili e le potenzialità, nonché i limiti, degli LLM nella generazione di dati demografici sintetici.

Fatti principali

  • Lo studio utilizza dati sanitari generati da LLM zero-shot per la sintesi di popolazione.
  • Modelli testati: GPT-4.1 e Gemini-2.5-Pro.
  • Fonte dati: Behavioral Risk Factor Surveillance System (BRFSS) 2023.
  • Focus geografico: Colorado e Mississippi, USA.
  • Metodo: pipeline di fitting proporzionale iterativo (IPF).
  • Risultato: gli LLM hanno catturato le principali differenze tra stati.
  • Limitazioni: prestazioni non completamente confrontate.
  • Pubblicato su arXiv: 2605.27401.

Entità

Istituzioni

  • arXiv

Luoghi

  • Colorado
  • Mississippi
  • United States

Fonti