Achou que não ia ter newsletter essa semana?? Achou errado!! 😎

O caminho para se destacar em competições de Data Science!

Olá, Data Hacker! A gente tarda, mas não falha! A nossa news não tem pausa pra Copa do Mundo!Hoje vamos trazer todas as informações possíveis pra você se tornar um Data Grandmeister, sendo o primeiro no ranking em qualquer competição de Data Science! Além disso, mostramos como o Netflix gerencia o Big Data que sua plataforma enfrenta, como arquitetar software orientados a eventos, porquê e como usar Python na sua Startup e muito mais! Bora?!

Nesse post sensacional, o professor e CTO

, mostra quais são os pontos indispensáveis de se notar quando se está competindo em desafios do Kaggle ou qualquer outra competição de Data Science.

Independente de plataforma ou linguagem de programação, Christo lembra de um modelo de aprovação de empréstimos do

 que construiu para a competição, contando o que fazer em etapas como Feature Engineering, Data Viz e Feature Selection.

Assunto sempre em pauta em

, a organização de Data Lakes muitas vezes é ofuscada pela quantidade de ferramentas que visam muito mais performance e volume do que governança. Neste post, o Netflix apresenta o Metacat: sua plataforma de Discovering, Lineage e Metadata Storing e mostra quais funcionalidades foram implementadas, os porquês e quais são os próximos passos.

Em mais um post desta série incrível do

, Ben Weber da Zynga, segue contando como deve ser a jornada de uma startup para adotar Data Science como parte de sua cultura e produto. Nesta parte, ele fala do porquê ter escolhido Python como língua mãe e como você também pode dar seus primeiros passos com

Python pra Data Science na nuvem

,

rodando um Jupyter direto na AWS

!

Seguindo na pegada do Kaggle! Neste video, compartilhado no

, o Data Hacker Thiago Brito manda ver em uma competição do Kaggle, a

, analisando a chance de um indivíduo dar "calote" em um empréstimo. No tutorial, Thiago mostra a primeira versão que ele submeteu para a competição, e depois, em um passo a passo, as melhorias feitas pra subida no ranking! 

O serviço

surgiu há alguns meses batendo de frente com o grande (

) Google BigQuery. Se você está lidando com Big Data na AWS, não pode deixar de ler essas dicas pra nunca mais pagar fortunas ou deixar queries rodando por minutos nos seus dados do S3.

Os macetes vão desde particionamento até otimização em ORDER BY e GROUP BY nos seus SQLs. Vai continuar dando mole?!

Nesse livro, Ben Stopford, engenheiro de dados e arquiteto do Apache Kafka Core Team na Confluent (empresa por trás do próprio Kafka) debulha todos os conceitos necessários para a construção de uma arquitetura orientada a eventos, esta que é essencial para lidar com volumes massivos de dados. Passa por conceitos de arquitetura de software, como CQRS, Event Sourcing e por detalhes de implementação do Kafka, como Kafka Streams e o KSQL.Leitura obrigatória pra qualquer Engenheiro de Dados ou Arquiteto de Soluções!

VAGAS DA SEMANA

São Paulo/SP - Matemática/Estatística, Machine Learning, Otimização e Algoritmos.

São Paulo/SP - Superior em Exatas, Machine Learning, Python (Scikit-learn), Cloudera, Spark e Hive. 

Belo Horizonte/MG - Node/Ruby, Microserviços, BigQuery/Redshift, ElasticSearch, Kubernetes.

São Paulo/SP - Superior Completo Computação ou áreas correlatas, Python/Java, Estatística, Machine Learning, ETL.

Criando uma notícia do zero, mas com base em dados!Nesse guia incrível, o Data Journalist Doug Dowson do The Economist conta a história de como construiu, com base em dados, uma notícia sobre os Salários dos CEOs.Até aí, nada muito novo... Mas ele teve que se debruçar entre MILHARES DE PDFs disponibilizados por um órgão público dos EUA pra conseguir tais números. Óbvio que ele não fez isso na mão né... não deixe de ver a palinha que ele dá de como resolveu este problema.

PRÓXIMOS EVENTOS E MEETUPS

The Developers Conference - SP 201817/07 a 21/07/2018 - 9:00 as 19:00São Paulo/SP - R$ 200 por trilha

19/06 a 21/06/2018 - 08h as 17:30h

São Paulo/SP - R$ 247 (estudante) / R$ 449

21/06/2018 - 08h as 19h

São Paulo/SP - Grátis!