Mentiras e boas verdades sobre os dados

Carregando as mudanças online de seu DB no Data Lake na AWS

Na news de hoje, vamos falar de polêmicas! Você tá bem ligado nas conclusões que tira dos dados? E as ferramentas que tem adotado, não tá caindo no papo daquele amigo do hype não? heheE mais! Aprendendo engenharia de dados de graça, métodos de estimação e como construir pipelines com Apache Spark. Bora!?

Mentir através de dados nem sempre é de caso pensado. Nesse post incrível Fernando Salhani, Data Scientist no GetNinjas, nos mostra o que é o p-hacking que é quando alguém apresenta análises que parecem estatisticamente significativas, mas, na real, não são! Fernando dá exemplos simples para ilustrar o p-hacking e compara com cenários reais, principalmente considerando Testes A/B, muito utilizados hoje em dia no meio online para validação de novas features em sistemas web.Leia, aprenda e fique ligado, Data Hacker! (em Português)

O Data Hacker Diogo Miyake fez um baita compilado de artigos, cursos e livros pra você que quer entrar de vez no mundo da Engenharia de Dados, porém não quer gastar rios de dinheiro.

Diogo traz não só artigos sobre o que é e o que faz um Engenheiro de Dados, mas também vários temas específicos, como o nosso amado Dremio, o MongoDB, SQL e Git! Se não (em Português)

 

Nesse mesmo slot, na ultima news, colocamos uma série de posts sobre o Apache Kafka - ferramenta incrível de streaming. Mas... e se eu te disser que você não precisa dele?

Ah... o Over-Engineering... Em um post bem sarcástico,

, Cientista de Dados na CapTech, conta do caso do WeWork, que diz usar Kafka para tratar os dados de IoT e como na maioria dos casos Kafka é uma bazuca pra se matar um mosquito. Imperdível! (em Inglês)

Você é daqueles, que nem eu, que sempre que houve "Máxima Verossimilhança" acha que estão falando de um filme de ação dos anos 90? Tá na hora de aprender! A Data Hacker

escreveu um post no nosso blog explicando os métodos de estimação mais utilizados: o de Máxima Verossimilhança e o da Distribuição Normal. (em Português)

Uma das operações mais comuns nas arquiteturas atuais é ter a capacidade de capturar as mudanças no seu banco transacional e mandar para o Data Lake - o famoso

. Neste post, a AWS dá um guia simples e completo de como fazer tal operação usando as ferramentas AWS DMS e AWS Glue para jogar os dados no seu Lake no S3. (em Inglês)

Construindo Pipelines com Apache SparkNessa palestra Fabiane Nardon, Chief Data Scientist na Tail Target, conta como construir pipelines de dados usando Apache Spark. Ela destaca coisas interessantes como que notebooks podem ser igualmente utilizados para exploração, experimentação e produção, não só para machine learning ou análise, mas também para ingestão no Data Lake. Sensacional! (em Português)

VAGAS DA SEMANA

  • Conhecimento avançado em SQL;

  • Administração de bancos MySQL ou PostgreSQL;

  • Programação de scripts (shell, Python, etc.);

  • Experiência em Linux;

  • Python avançado;

  • Sistema de Versionamento Git;

  • Desenvolvimento de Rotinas SQL;

  • Manipulação de arquivos csv, json, parquet;

  • Integrações via API.

O caminho da reforma da previdênciaCom esse caminho todo a se percorrer, a gente fica meio perdido, quando perguntado "A reforma sai ou não sai?!" né? O pessoal do Nexo fez um infográfico muito bacana, mostrando quais são os passos e números necessários para a aprovação da reforma. (em português)

PRÓXIMOS EVENTOS E MEETUPS

10 de julho de 2019

Campinas/SP - Gratuito

15 de julho de 2019

Curitiba/PR - Lista de Espera - Gratuito

30 e 31 de julho de 2019

16 Talks + 6 Workshops - Gratuito

08 e 09 de outubro de 2019

Curitiba/PR - A partir de R$ 390