• Data Hackers Newsletter
  • Posts
  • Vamos falar de Pipeline de Dados?  Entenda como ele é importante para o sucesso dos projetos de Data Science! 👷🔧

Vamos falar de Pipeline de Dados?  Entenda como ele é importante para o sucesso dos projetos de Data Science! 👷🔧

Sete princípios para pipelines de dados confiáveis

Fala Data Hackers! Prontos para começar mais uma semana cheia de dados?O tema da newsletter de hoje é Pipeline de Dados. A verdade é que não importa se você se identifique mais com o papel de um Data Scientist, Data Analyst ou Data Engineer, em todos esses casos um Pipeline de Dados bem estruturado será um grande diferencial para o sucesso de seus projetos.Pensando nisso decidimos reunir uma série de posts com orientações, dicas de ferramentas e um guia passo a passo para a implementação de um pipeline de dados, tudo isso para tentar mostrar algumas das possibilidades dessa área. Trouxemos também alguns conteúdos sobre estruturação de projetos de Machine Learning incluindo boas práticas para ser mais organizado e produtivo.Prontos para começar?

O objetivo de hoje é entendermos de forma definitiva como funciona um Pipeline de Dados de ponta a ponta, e para começar que tal vermos na prática os passos para colocar tudo isso rodando?Na última semana o Data Hacker Cícero de Moura compartilhou no Blog do Data Hackers um post onde ele explica como construiu um Pipeline de Dados do zero, utilizando Apache NiFi, Apache Kafka e Amazon S3.Antes de ir para o post, é legal entender que o problema que o Cícero resolveu através de um Pipeline de Dados é comum na maioria das empresas, utilizar uma API para atualizar informações cadastrais de clientes (no caso o endereço) e deixar isso automatizado, de forma que os dados sejam constantemente atualizados. Além das dicas, ao final do post é disponibilizado todos os arquivos do projeto para você conseguir reproduzir no seu próprio ambiente. (em Português)

Talvez você ainda não conheça essa ferramenta, mas o Apache NiFi é um projeto open-source com o objetivo de automatizar fluxos de dados entre sistemas de forma escalável, segura e eficiente.

Nessa nova iniciativa os Data Hackers Rodrigo Teoria, Adamastor Talietta e Maikel Penz resolveram gravar um vídeo onde juntos explicam passo a passo a ferramenta e como utilizar no dia a dia. É um verdadeiro tutorial partindo do zero, gratuito e em português, além disso todo material para acompanhamento é disponibilizado.

Obs: Não podíamos deixar de compartilhar essa iniciativa incrível que surgiu na comunidade. Muito obrigado aos Data Hackers Rodrigo Teoria, Adamastor Talietta e Maikel Penz por toda a dedicação na execução dessa ideia. (em Português)

 

Um ponto muito importante quando estamos falando de Pipeline de Dados é o quão confiável é todo o processo. De nada adianta ter um Pipeline bem estruturado se ao final os dados não forem confiáveis.

Pensando nisso o Data Hacker Ricardo Pinto decidiu traduzir para a comunidade um dos melhores artigos da área, onde são apresentados os 7 passos necessários para garantir que um Pipeline de Dados seja confiável. (em Português)

Obs: A tradução foi autorizada pelos autores do

É difícil pensar em trabalhar com grandes volumes de dados sem pensar em bancos de dados NoSQL, mas você entende sobre como a flexibilidade desses bancos funciona na prática? Nesse post o Data Hacker Alexandre Neukirchen mostra passo a passo como configurar bancos NoSQL, as principais diferenças e da dicas de quando utilizar esse tipo de tecnologia. (em Português)

Alguns profissionais de dados que não vem da área de tecnologia tem muita dificuldade para entender os conceitos por trás do controle de versão dos projetos. Pensando nisso, esse post trás um guia prático para o uso do Git em projetos de Data Science. (em Inglês)

Você já conhece o MLflow? Essa plataforma para gerenciamento de projetos de ML de ponta a ponta está ganhando um destaque cada vez maior entre Cientistas de Dados e Engenheiros de Machine Learning, vale a pena conferir e entender melhor como ela funciona e quando utilizá-la em seus projetos. (em Inglês)

Quando pensamos em MLOps quase sempre vem a mente uma série de modelos de Machine Learning complexos em produção, mas e se você pudesse rodar todo um pipeline de MLOps em sua própria máquina  utilizando o ambiente local? Esse post mostra como fazer isso e dar os primeiros passos nessa área. (em Inglês)

Que tal falarmos um pouco de Data Visualization? Sabia que a combinação correta de cores pode aumentar e muito o interesse das pessoas pelas suas análises? E sabia que existem algumas técnicas para tornar essa escolha da combinação ideal algo mais fácil?

você encontra muitas dicas do assunto. (em Inglês)

VAGAS DA SEMANA

  • Conhecimentos em SQL e Excel;

  • Análise Estatística;

  • Conhecimentos de ferramentas de Visualização de Dados (PowerBI, Tableau, Metabase, Grafana ou Looker)

  • Python;

  • Conhecimento em cloud, especialmente serviços da Google Cloud ou AWS; 

  • Conhecimentos avançados no uso de SQL; 

  • Conhecimentos em ferramentas de ETL Open Source (Airflow, Streamsets, etc);

  • Familiaridade com modelagem de Data Warehousing (RabbitMQ, Kafka, Kinesis, Cloud Storage, AWS S3, BigQuery, Redshift);

People Analytics - A Ciencia de Dados do RHNessa live incrível a comunidade R-Ladies explica como funciona a área de People Analytics e como Data Science é aplicado no RH das empresas, o vídeo é uma verdadeira aula, vale muito a pena conferir! (em Português).

Mais uma dica do Data Hacker Rodrigo Teoria direto do instagram @statsystem.

Entenda o perfil dos vereadores eleitos em 2020Na última semana as redes sociais foram tomadas por conteúdos relacionados com os resultados das eleições para prefeito e vereador no Brasil. Se por um lado comemoramos que grupos nunca antes representados conseguiram se eleger, e em alguns casos estar entre os mais bem votados, por outro lado fica sempre a dúvida de qual o impacto dessas mudanças de fato.Nesta notícia cheia de visualizações de dados é possível entender, através dos dados do STE, como está sendo essa evolução e ver que ainda temos uma longa caminhada antes da real representatividade da sociedade nas urnas. (em Português)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

30 de Novembro a 18 de Dezembro de 2020 - Evento online gratuito