Data Wrangling: Conceitos Iniciais




Data Wrangling (DW)

Também chamado em português de Preparação de Dados, é o processo de transformar os dados de um conjunto “bruto” para um outro formato conveniente para realização de análise. Em inglês Wrangling possui o significado de reunir.

Data Wrangling é um processo mais orientado aos analistas de dados para composição de sistemas de visualização, estatística e outros tipos de análise de dados. Diferencia-se desta forma de processos como ETL já que este tem como objetivo fins tecnológicos (e.g. armazenamento em um DW).


Etapas de Data Wrangling

As etapas do processo de Data Wrangling podem ser sistematizadas como:

  • Coletar dados (também chamado de reunir ou adquir dados, em inglês Gather);
  • Avaliar a estrutura dos dados e sua qualidade;
  • Limpar os dados;
  • Estruturar em um formato adequado.

Os objetivos são:

  • Armazenar dados;
  • Analisar dados;
  • Visualizar dados; e
  • Modelar dados.

Por exemplo: se quisermos analisar dados das frotas de ônibus da cidade de São Paulo, provavelmente deveremos pegar os dados disponíveis pela SPTrans. Não é possível obter os dados históricos via site, então se quisermos informações deste tipo, deveremos buscar outra fonte ou fazer uma requisição à empresa.  Mas se precisarmos de dados em tempo-real, talvez consigamos o que desejamos pela API disponibilizada. Mas os dados disponibilizados são sobre a operação dos veículos, mas não possuem, por exemplo, a lotação dos ônibus. Desta forma, outra estratégia deve ser utilizada se quisermos estes dados.


Planejamento Inicial

Envolve entender a compreensão de algo e quais são os dados que serão utilizados para sua compreensão. Desta forma é necessário:

  1. O que será analisado ?
  2. Quais fontes de dados estão disponíveis ?
  3. O que deverá ser obtido destes dados ?
  4. Quais os recursos tecnológicos e de análise existentes ?
  5. Quais os interesses dos stakeholders que irão utilizar os dados, com o intuito de prover análises, visualizações e outros recursos convenientes ?

Leia mais



Para citar este artigo

REVISTABW. Data Wrangling: Conceitos Iniciais.Revista Brasileira de Web: Tecnologia. Disponível em https://www.revistabw.com.br/revistabw/data-wrangling-conceitos-iniciais/. Criado em: 19/05/2018. Última atualização: 23/05/2018. Visitado em: 21/08/2018


Procurando mais conteúdos ? Utilize o campo de busca abaixo



Leia +



Você também deveria ler


O conteúdo da Revista Brasileira de Web é licenciado sob uma Licença Creative Commons Atribuição 3.0 Brasil, exceto quando especificado claramente em contrário. Este é um site de conteúdos diversos e dicas gerais e não substitui a consultoria de um profissional devidamente qualificado. Isto significa que os assuntos aqui abordados possuem caráter geral e podem não ser adequados no seu caso. Leia nossos Termos de Uso e Privacidade.