Please enable / Bitte aktiviere JavaScript!
Veuillez activer / Por favor activa el Javascript![ ? ]

Data Wrangling: Coleta de Dados



Coleta de Dados

Também chamado de reunir ou adquir dados (em inglês Gather) necessários para transformação.


Etapas de coletas de dados

Os passos iniciais para coletas de dados envolvem:

  1. Avaliar o formato dos dados;
  2. Avaliar o tipo de aquisição de dados;
  3. Avaliar o tipo de acesso aos dados;
  4. Avaliar a quantidade de dados disponibilizada;
  5. Avaliar as melhores ferramentas disponíveis para lidar com a massa de dados;
  6. Avaliar o modo como os dados são fornecidos e se há documentação adequada sobre o seu formato e características;
  7. Estruturar o método para aquisição de dados.

Formatos de dados

Os formatos de dados podem incluir:

  • Arquivos de texto (em formato desconhecido ou padronizado – por exemplo, como arquivo csv – campos separados por vírgula, tsv- campos separados por tabulação e outros );
  • Planilhas;
  • Bancos de Dados; e
  • APIs.

Em alguns casos, os dados podem estar em formatos que não de fácil análise. Exemplos incluem extração de dados de:

  • Arquivos pdf e
  • Arquivos de imagens.

Tipo de aquisição de dados

Os dados podem ser adquiridos:

  • De forma manual:
    • Download de um site
    • Através de uma mídia física (disponível em um CD, pendrive, etc.)
  • De forma automática: utiliza um software para captar os dados.
    • Download de um site;
    • De um conjunto de sensores;
    • De um conjunto de medições diretas (e.g. do tráfego de um site, de um conjunto de vendas, etc.);
    • Web Scraping.

Tipo de acesso aos dados

  • Dados próprios: aqueles da própria organização, onde o analista possui o acesso.
  • Dados de terceiros: dados de propriedade de outras organizações. Os dados podem ser:
    • Abertos: dados que permitem o acesso de outras pessoas.
    • Proprietários: dados que são restritos apenas à organização.

Quantidade de dados

A análise da quantidade de dados envolve obter o recorte apropriado do conjunto total de dados e avaliar o tempo de aquisição e processamento, determinando se são adequados para a análise a ser realizada.


Avaliar as melhores ferramentas para análise de dados

Ciência de dados é, em geral, orientada a analistas de dados e outros perfis mais administrativos. Desta forma, as principais ferramentas de análise não são orientadas ao perfil mais técnico: exemplos incluem Microsoft Excel, Jupyter e outras ferramentas. Ferramentas como Microsoft Excel podem ser mais adequadas para conjuntos de dados pequenos, enquanto Jupyter, R e afins são mais recomendados para conjuntos de dados maiores.


Avaliar o modo como os dados são fornecidos e se há documentação adequada sobre o seu formato e características

Se os dados possuem uma documentação adequada, isto pode ser útil para auxiliar nas diversas etapas de DW. No entanto, em muitos casos os dados são fornecidos diretamente sem uma documentação, o que demanda uma análise crítica para determinar as variáveis tratadas e como realizar a transformação necessária.



Para citar este artigo

REVISTABW. Data Wrangling: Coleta de Dados.Revista Brasileira de Web: Tecnologia. Disponível em https://www.revistabw.com.br/revistabw/data-wrangling-coleta-de-dados/. Criado em: 20/05/2018. Última atualização: 24/05/2018. Visitado em: 22/06/2018


Procurando mais conteúdos ? Utilize o campo de busca abaixo



Leia +



Você também deveria ler


O conteúdo da Revista Brasileira de Web é licenciado sob uma Licença Creative Commons Atribuição 3.0 Brasil, exceto quando especificado claramente em contrário. Este é um site de conteúdos diversos e dicas gerais e não substitui a consultoria de um profissional devidamente qualificado. Isto significa que os assuntos aqui abordados possuem caráter geral e podem não ser adequados no seu caso. Leia nossos Termos de Uso e Privacidade.