Data Hackers Newsletter
Posts
Mentiras e boas verdades sobre os dados

Mentiras e boas verdades sobre os dados

Carregando as mudanças online de seu DB no Data Lake na AWS

Data Hackers
July 08, 2019 • Tempo de leitura estimado: 7 minutos

Na news de hoje, vamos falar de polêmicas! Você tá bem ligado nas conclusões que tira dos dados? E as ferramentas que tem adotado, não tá caindo no papo daquele amigo do hype não? heheE mais! Aprendendo engenharia de dados de graça, métodos de estimação e como construir pipelines com Apache Spark. Bora!?

Mentindo sem querer através dos dados

Mentir através de dados nem sempre é de caso pensado. Nesse post incrível Fernando Salhani, Data Scientist no GetNinjas, nos mostra o que é o p-hacking que é quando alguém apresenta análises que parecem estatisticamente significativas, mas, na real, não são! Fernando dá exemplos simples para ilustrar o p-hacking e compara com cenários reais, principalmente considerando Testes A/B, muito utilizados hoje em dia no meio online para validação de novas features em sistemas web.Leia, aprenda e fique ligado, Data Hacker! (em Português)

Aprenda Engenharia de Dados sem gastar um tostão!

O Data Hacker Diogo Miyake fez um baita compilado de artigos, cursos e livros pra você que quer entrar de vez no mundo da Engenharia de Dados, porém não quer gastar rios de dinheiro.

Diogo traz não só artigos sobre o que é e o que faz um Engenheiro de Dados, mas também vários temas específicos, como o nosso amado Dremio, o MongoDB, SQL e Git! Se não (em Português)

Você NÃO precisa do Kafka. Sério!

Nesse mesmo slot, na ultima news, colocamos uma série de posts sobre o Apache Kafka - ferramenta incrível de streaming. Mas... e se eu te disser que você não precisa dele?

Ah... o Over-Engineering... Em um post bem sarcástico,

, Cientista de Dados na CapTech, conta do caso do WeWork, que diz usar Kafka para tratar os dados de IoT e como na maioria dos casos Kafka é uma bazuca pra se matar um mosquito. Imperdível! (em Inglês)

Aprenda o que são Métodos de Estimação

Você é daqueles, que nem eu, que sempre que houve "Máxima Verossimilhança" acha que estão falando de um filme de ação dos anos 90? Tá na hora de aprender! A Data Hacker

Maria Helena

escreveu um post no nosso blog explicando os métodos de estimação mais utilizados: o de Máxima Verossimilhança e o da Distribuição Normal. (em Português)

Carregando as mudanças online de seu DB no Data Lake na AWS

Uma das operações mais comuns nas arquiteturas atuais é ter a capacidade de capturar as mudanças no seu banco transacional e mandar para o Data Lake - o famoso

CDC

. Neste post, a AWS dá um guia simples e completo de como fazer tal operação usando as ferramentas AWS DMS e AWS Glue para jogar os dados no seu Lake no S3. (em Inglês)

Construindo Pipelines com Apache SparkNessa palestra Fabiane Nardon, Chief Data Scientist na Tail Target, conta como construir pipelines de dados usando Apache Spark. Ela destaca coisas interessantes como que notebooks podem ser igualmente utilizados para exploração, experimentação e produção, não só para machine learning ou análise, mas também para ingestão no Data Lake. Sensacional! (em Português)

VAGAS DA SEMANA

DBA/Arquiteto de Banco de Dados - Meliuz

Conhecimento avançado em SQL;
Administração de bancos MySQL ou PostgreSQL;
Programação de scripts (shell, Python, etc.);
Experiência em Linux;

Engenheiro de Dados - 4all

Python avançado;
Sistema de Versionamento Git;
Desenvolvimento de Rotinas SQL;
Manipulação de arquivos csv, json, parquet;
Integrações via API.

O caminho da reforma da previdênciaCom esse caminho todo a se percorrer, a gente fica meio perdido, quando perguntado "A reforma sai ou não sai?!" né? O pessoal do Nexo fez um infográfico muito bacana, mostrando quais são os passos e números necessários para a aprovação da reforma. (em português)

PRÓXIMOS EVENTOS E MEETUPS

Meetup School of IA + AI Brasil

10 de julho de 2019

Campinas/SP - Gratuito

Meetup EBANX + Tableau | 10 tendências de BI para 2019

15 de julho de 2019

Curitiba/PR - Lista de Espera - Gratuito

Demystifying Data Science (evento online)

30 e 31 de julho de 2019

16 Talks + 6 Workshops - Gratuito

Data Science Summit

08 e 09 de outubro de 2019

Curitiba/PR - A partir de R$ 390