Desarrollo de una población brasileña sintética derivada del Censo de 2010

Autores/as

DOI:

https://doi.org/10.20947/S0102-3098a0306

Palabras clave:

Población, Análisis de cohorte, Simulación, Inferencia estadística

Resumen

El Censo Brasileño de 2010 contiene una riqueza de información que puede facilitar la investigación y apoyar políticas en materia de salud, educación, economía y otros sectores. El censo proporciona información disponible públicamente en dos formas. En primer lugar, existen tablas de contingencia disponibles a nivel municipal, para estratos definidos por raza, género y educación. En segundo lugar, microdatos con información personal. Para preservar el anonimato individual en los datos, el censo dividió algunas variables en categorías más amplias y eliminó datos de identificación personal. Las estrategias de composición de datos de las tablas de contingencia y los microdatos son diferentes y, al comparar muestras de ambos datos, encontramos que la variable raza en los microdatos ignora la presencia de minorías en algunos municipios. Esto sugiere que se deberían crear poblaciones sintéticas basadas en el Censo de 2010 utilizando tablas de contingencia. Nuestra evaluación muestra que la población sintética así creada mantiene los valores y proporciones de las tablas de contingencia y presenta totales cercanos a los de los microdatos.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Cleônidas Tavares de Souza Junior, CIDACS - Centro de Integración de Datos y Conocimiento para la Salud

Cleônidas tiene un doctorado en Modelado Computacional de Sistemas Cognitivos (SENAI-CIMATEC)

Desmond Campbell, Universidad de Glasgow

Investigador asociado (Unidad de Ciencias Sociales y de Salud Pública)

Srinivasa Vittal Katikireddi , Universidad de Glasgow

S Vittal Katikireddi es un médico de salud pública que realizó sus estudios de pregrado en Medicina y Genética en la Universidad de Edimburgo, su maestría y doctorado en salud pública en la Universidad de Glasgow, donde actualmente es profesor de Salud Pública y Desigualdades en Salud.

Paulo Victor Maciel da Costa , CIDACS - Centro de Integración de Datos y Conocimiento para la Salud

Paulo es doctor en Demografía por el Programa de Posgrado en Demografía (PPGDem) de la Universidad Federal de Rio Grande do Norte (UFRN).

Gervásio Ferreira dos Santos , CIDACS - Centro de Integración de Datos y Conocimiento para la Salud

Gervásio es doctor en Economía por la Universidad de São Paulo (USP)

Mauricio Lima Barreto, CIDACS - Centro de Integración de Datos y Conocimiento para la Salud

Mauricio es médico (UFBA), Máster en Salud Comunitaria (UFBa) y Doctor en Epidemiología (LSHTM- U de Londres).

Roberto Fernandes Silva Andrade, CIDACS - Centro de Integración de Datos y Conocimiento para la Salud

Roberto es doctor en Física por la Universidad de Ratisbona (Alemania)

Citas

AJAUSKAS, R.; STRAMBI, O. Procedimento para geração de populações sintéticas com base em dados disponíveis no Brasil. Transportes, v. 32, n. 3, e2617, 2024.

ARORA, A.; WAGNER, S. K.; CARPENTER, R.; JENA, R.; KEANE, P. A. The urgent need to accelerate synthetic data privacy frameworks for medical research. The Lancet Digit Health, v. 7, n. 2, E157-E160, 2025.

BECKMAN, R. J.; BAGGERLY, K. A.; MCKAY, M. D. Creating synthetic baseline populations. Transportation Research Part A: Policy and Practice, v. 30, n. 6, p. 415-429, 1996.

BELOV, V.; TATARINTSEV, A.; NIKULCHEV, E. Choosing a Data storage format in the Apache Hadoop system based on experimental evaluation using Apache Spark. Symmetry, v. 13, Article 195, 2021.

BISSETT, K. R.; CADENA, J.; KHAN, M.; KUHLMAN, C. J. Agent based computational epidemiological modeling. Journal of Indian Institute of Science, v. 101, n. 3, p. 303-307, 2021.

CHAPUIS, K.; TAILLANDIER, P.; DROGOUL, A. Generation of synthetic populations in social simulations: a review of methods and practices. Journal of Artificial Societies and Social Simulation, v. 25, n. 2, Article 6, 2022.

DUARTE, L. T.; SILVA, D. B. D. N.; BRITO, J. A. D. M. Análise de paradados do Censo Demográfico 2010: uma investigação de fatores associados a erros não amostrais do levantamento de dados. Revista Brasileira de Estudos de População, v. 33, n. 3, p. 679-701, 2016.

ETUMAN, A. E.; BENOUSSAÏD, T.; CHARREIRE, H.; COLL, I. OLYMPUS-POPGEN: a synthetic population generation model to represent urban populations for assessing exposure to air quality. PloS One, v. 19, n. 3, Article e0299383, 2024.

FAROOQ, B.; BIERLAIRE, M.; HURTUBIA, R.; FLÖTTERÖD, G. Simulation based population synthesis. Transportation Research Part B: Methodological, v. 58, p. 243-263, 2013.

FELBERMAIR, S.; LAMMER, F.; TRAUSINGER-BINDER, E.; HEBENSTREIT, C. Generating synthetic population with activity chains as agent-based model input using statistical raster census data. Procedia Computer Science, v. 170, p. 273-280, 2020.

FURTADO, B. A. Gerando famílias artificiais intraurbanas: Censo 2010. Brasília: Ipea, 2020 (Nota Técnica, n. 78).

GADOTTI, A.; ROCHER, L.; HOUSSIAU, F.; CREŢU, A.; MONTJOYE, Y. Anonymization: the imperfect science of using data while preserving privacy. Science Advances, v. 10, n. 29, Article eadn7053, 2024.

GUNSALUS, P. R.; ROSE, J.; LEHR, C. J.; VALAPOUR, M.; DALTON, J. E. Creating synthetic populations in transplantation: a Bayesian approach enabling simulation without registry resampling. PloS One, 2024.

IBGE – Instituto Brasileiro de Geografia e Estatística. Metodologia do Censo Demográfico 2010. Rio de Janeiro: IBGE, 2013.

IBGE – Instituto Brasileiro de Geografia e Estatística. Sistema IBGE de Recuperação Automática – Sidra, 2024. Disponível em: https://sidra.ibge.gov.br/home/pms/brasil. Acesso em: 01 set. 2024.

IBGE-DOWNLOADS. IBGE – Downloads, 2024. Disponível em: https://www.ibge.gov.br/estatisticas/downloads-estatisticas.html. Acesso em: 28 set. 2024.

IBGE-MICRODADOS. IBGE – Censo demográfico, 2024. Disponível em: https://www.ibge.gov.br/ estatisticas/sociais/populacao/9662-censo-demografico-2010.html?=&t=microdados. Acesso em: 28 set. 2024.

JIANG, N.; CROOKS, A. T.; KAVAK, H.; BURGER, A.; KENNEDY, W. G. A method to create a synthetic population with social networks for geographically-explicit agent-based models. Computational Urban Science, v. 2, n. 7, 2022.

KONDURI, K.; YOU, D.; GARIKAPATI, V.; PENDYALA, R. Enhanced synthetic population generator that accommodates control variables at multiple geographic resolutions. Transportation Research Record, v. 2563, n. 1, p. 40-50, 2016.

KRIJKAMP, E. M.; ALARID-ESCUDERO, F.; ENNS, E. A.; JALAL, H. J.; HUNINK, M. G. M.; PECHLIVANOGLOU, P. Microsimulation modeling for health decision sciences using R: a tutorial. Medical Decision Making, v. 38. n. 2, p. 400-422, 2018.

LEYK, S.; GAUGHAN, A. E.; ADAMO, S. B.; SHERBININ, A. de; BALK, D.; FREIRE, S.; ROSE, A.; STEVENS, F. R.; BLANKESPOOR, B.; FRYE, C.; COMENETZ, J.; SORICHETTA, A.; MACMANUS, K.; PISTOLESI, L.; LEVY, M.; TATEM, A. J.; PESARESI, M. The spatial allocation of population: a review of large-scale gridded population data products and their fitness for use. Earth System Science Data, v. 11, p. 1385-1409, 2019.

LI, J.; VIDYATTAMA, Y. Projecting spatial population and labour force growth in Australian districts. Journal of Population Research, v. 36, p. 205-232, 2019.

MT tem três terras indígenas sob ameaça de madeireiros e grileiros vigiadas pela Força Nacional. G1. 10 de janeiro de 2022. Disponível em: https://g1.globo.com/mt/mato-grosso/ noticia/2022/02/10/mt-tem-tres-terras-indigenas-sob-ameaca-de-madeireiros-e-grileirosvigiadas-pela-forca-nacional.ghtml. Acesso em: 31 jul. 2025.

NADAL, J. O.; SANZ, G. C.; RIBAS, I. F.; MONDELO, P. R. Determining occupational accidents baseline ratios by considering a synthetic population: the case of Spain. PloS One, v. 18, n. 11, Article e0294707, 2023.

NICOLAIE, M. A.; FÜSSENICH, K.; AMELING, C.; BOSHUIZEN, H. C. Constructing synthetic populations in the age of big data. Population Health Metrics, n. 21, 2023.

NOWOK, B.; RAAB, G. M.; DIBBEN, C. synthpop: bespoke creation of synthetic data in R. Journal of Statistical Software, v. 74, n. 11, 2016.

PIANUCCI, M.; PITOMBO, C.; CUNHA, A.; LIMA, P. Previsão da demanda por viagens domiciliares

através de método sequencial baseado em população sintética e redes neurais artificiais. Transportes, v. 27, 2019.

PNUD; IPEA; FJP. Atlas do desenvolvimento humano no Brasil 2013. PNUD Brasil, 2025. Disponível em: http://www.atlasbrasil.org.br/perfil/municipio/510325#:~:text=De%20acordo%20com%20s%20estimativas,maioria%2C%20por%20homens%20e%20negros%20. Acesso em: 31 jul.2025.

PRÉDHUMEAU, P.; MANLEY, E. A synthetic population for agent-based modelling in Canada. Scientific Data, v. 10, n. 148, 2023.

R CORE TEAM. R: a language and environment for statistical computing. Vienna, Austria: R Foundation, 2024. Disponível em: https://www.r-project.org/. Acesso em: 02 ago. 2025.

RAGHUNATHAN, T. E. Synthetic data. Annual Review Statistics and its Application, v. 8, n. 129, p. 129-140, 2021.

RASELLA, D.; BASU, S.; HONE, T.; PAES-SOUSA, R.; OCKÉ-REIS, C. O.; MILLETT, C. Child morbidity and mortality associated with alternative policy responses to the economic crisis in Brazil: a nationwide microsimulation study. Plos Medicine, v.15, n. 5, Article e1002570, 2018.

POSIT TEAM. RStudio: Integrated Development Environment for R. Boston, MA: Posit Software, PBC, 2025. Disponível em: http://www.posit.co/. Acesso em: 02 ago. 2025.

SALLARD, A.; BALAĆ, M.; HÖRL, S. A synthetic population for the greater São Paulo metropolitan region. Arbeitsberichte Verkehrs-und Raumplanung, v. 1545, 2020.

SCHOFIELD, D.; ZEPPEL, M.; TAN, O.; LYMER, S.; CUNICH, M.; SHRESTHA, R. A brief, global history of microsimulation models in health: past applications, lessons learned and future directions. International Journal of Microsimulation, v. 11, n. 1, p. 97-142, 2018.

SOUZA-JUNIOR, C. T. D. Population. GitHub repository. Disponível em: https://github.com/Cleonidas-Tavares/Population. Acesso em: 16 nov. 2024. .

TEMPL, M.; KOWARIK, A.; MEINDL, B. Statistical disclosure control for micro-data using the R Package sdcMicro. Journal of Statistical Software, v. 67, n. 4, 2015.

TON, M. J.; INGELS, M. W.; DE BRUIJN, J. A.; DE MOEL, H.; REIMANN, L.; BOTZEN, W. J. W.; AERTS, J. C. J. H. A global dataset of 7 billion individuals with socio-economic characteristics. Scientific Data, v. 11, Article 1096, 2024.

TOZLUOĞLU, Ç.; DHAMAL, S.; YEH, S.; SPREI, F.; LIAO, Y.; MARATHE, M.; BARRETT, C. L.; DUBHASHI, D. A synthetic population of Sweden: datasets of agents, households, and activity-travel patterns. Data in Brief, v. 48, 2023.

VOAS, D.; WILLIAMSON, P. An evaluation of the combinatorial optimisation approach to the creation of synthetic microdata. International Journal of Population Geography, v. 6, p. 349-366, 2000.

YAMÉOGO, B.; GASTINEAU, P.; HANKACH, P.; VANDANJON, P. Comparing methods for generating a two-layered synthetic population. Transportation Research Record, v. 2675, p. 136-147, 2020.

YE, X.; KONDURI, K.; PENDYALA, R.; SANA, B.; WADDELL. P. A methodology to match distributions of both household and person attributes in the generation of synthetic populations. In: 88th ANNUAL MEETING OF THE TRANSPORTATION RESEARCH BOARD. Proceedings […]. 2009. Washington, DC: [s.n.], 2009.

ZHANG, J. L.; BRYANT, J.; NISSEN, K. Bayesian small area demography. Survey Methodology, v. 45, n. 1, p. 13-29, 2019.

ZHU, K.; YIN, L.; LIU, K.; LIU, J.; SHI, Y.; LI, X.; ZOU, H.; DU, H. Generating synthetic population for simulating the spatiotemporal dynamics of epidemics. Plos Computational Biology, v. 20, Article e1011810, 2024

Publicado

2025-10-16

Cómo citar

Tavares de Souza Junior, C., Campbell, D., Vittal Katikireddi , S., Victor Maciel da Costa , P., Ferreira dos Santos , G., Lima Barreto, M., & Fernandes Silva Andrade, R. (2025). Desarrollo de una población brasileña sintética derivada del Censo de 2010. Revista Brasileira De Estudos De População, 42. https://doi.org/10.20947/S0102-3098a0306

Número

Sección

Artigos originais