negritando ()

Coletando dados do IBGE com Python e SIDRA O IBGE possui um banco de pesquisas e suas tabelas estatísticas que podem ser acessadas através do SIDRA (Sistema IBGE de Recuperação Automática) . Podem ser selecionadas as seguintes áreas de pesquisa:

Indicadores
População
Economia
Meio Ambiente

Através desta ferramenta conseguimos acessar diversas pesquisas. Entre elas temos a Pesquisa Nacional por Amostra de Domicílios Contínua Anual - PNADC/A onde selecionamos os dados de 2022 na nossa pesquisa.

A interface da SIDRA solicita a informação de alguns dados através de formulário para delimitar/filtrar o universo desejado da pesquisa:

Informação do ano
solicita a informação da variável desejada
nível territorial

Após é possível: visualizar, fazer o download, determinar algumas opções de visualização (notas de rodapé, exibição de códigos, ...). Em links de compartilhamento apresenta a url, baseada nos dados informados no formulário de filtro, que foi utilizada para consumir a API e obter os dados da tabela desejada.

botões visualizar ...
salvar o quadro, links de compartilhamento e opções avançadas.
retorno no formato XML

Como fonte de dados foram utilizadas as seguintes tabelas estatísticas da pesquisa PNADC/A:

Para garimpar, polir os dados (ETL-Extract, Transform e Load) e gerar o histograma utilizamos python e panda através de um jupiter notebook .

Plataformas de computação e ferramentas de análise de dados Como ferramentas utilizamos a plataforma AWS por disponibilizar serviços e ambientes prontos tais como:

11th Gen Intel(R) Core(TM) i7-1165G7 @ 2.80GHz 2.80 GHz; 16,0 GB (utilizável: 15,7 GB);
Windows 11 Pro 23H2;
AWS SageMaker (serviço, disponibiliza toda computação utilizada);
AWS Glue (serviço, ferramenta de ETL: Extract, transform, load );
Python 3 (linguagem de programação, disponilizado no AWS Sagemaker);
Jupiter notebook (web integrated development environment - IDE, disponilizado no AWS Sagemaker);
Scikit-learn 1.6 (biblioteca de análise de dados predictiva, disponilizado no AWS Sagemaker);
NumPy 2.2 (biblioteca de computação científica numérica, disponilizado no AWS Sagemaker);
Matplotlib (biblioteca de visualização, disponilizado no AWS Sagemaker);
SciPy (biblioteca de algoritmos de computação científica, disponilizado no AWS Sagemaker);