O dia-a-dia de um Cientista de Dados!

Aprenda Deep Reinforcement Learning com Super Mario!

Alô, Data Hackers! O que um Cientista de Dados faz? Quais ferramentas usa? Quais skills são necessárias pra esse posto tão cobiçado? E onde tá o salário de 25 mil por mês (hehe)?! Essas e muitas outras perguntas foram respondidas por 4 cientistas de dados e 1 engenheiro de dados de gaiato no nosso 2º episódio do Podcast do Data Hackers!!!Depois de taaaantos pedidos e uma espera longa, está aí nossa segunda edição! Agradecemos imensamente todo mundo que deu aquela moral compartilhando, deixando críticas construtivas e aquele abraço pra gente! Mas a news não é só isso! Tem também: Bechmarking em dados do Candy Crush, Deep Reinforcement Learning de maneira fácil com Super Mário, Blockchain e Dados, sem hype, vagas ultra-bacanas e mais!

Com participação de Luis Martins, da Concepta Inc. e Jones Madruga, da Stoodi, discutimos o dia a dia de um cientista de dados, em mais uma conversa descontraída e ultra informativa! Disponível no Spotify, Google Podcast, Itunes e mais!

A

, criadora do

e uma das maiores produtoras de jogos mobile do mundo, conta neste post como fez benchmarking em 80TB de dados, que representam 1 trilhão de linhas em 50 tabelas, comparando sua solução on-premises MPP, Hive, Impala e o Google BigQuery.

O artigo explica a passagem por um processo de carregamento dos dados de testes, usando Spark para carregar os dados no Google Storage, o particionamento dos dados e, por fim, o desempenho das 10 categorias de queries nas 4 soluções.

Leitura essencial pra quem está pensando em migrar sua solução de DW e/ou Query Engine!

Esse nome dá até calafrios né? Mas o Data Hacker

nos fez o imenso favor de explicar um dos conceitos mais complicados de aprendizado de máquina usando Super Mario! Paulo vai de Teoria de Autômatos até Deep Learning, com exemplos gráficos didáticos e, claro, aquele monte de referência pra você aprofundar de vez nesse método tão elegante!

 

Eu sei... sua tela quase explodiu de tanto hype! Mas, deixando o preconceito de lado, Data Storage é uma das aplicações mais nteligentes de blockchain. Neste texto,

, ex Amazon e GE, fala como blockchain usa de suas propriedades distribuídas para funcionar como um CDN, garantindo durabilidade, disponibilidade e performance. Exemplos são

e o

. (em Inglês)

É isso mesmo! Ao invés, use conda! O Engenheiro de Machine Learning Michael Nguyen, mostra que a performance pode ser de 5x a 8x vezes melhor. Isso acontece porque o conda usa libs otimizadas da Intel para Deep Learning. Michael dá mais detalhes em seu post.P.S.: Isso também acontece pro NumPy e Scikit-Learn ;)

Codecademy Go - Aplicativo pra aprender Python, SQL e Data Science!Quer aproveitar aquele tempo no metrô, na fila de espera ou qualquer outro lugar em que você esteja a toa pra praticar Python, SQL, Data Science e mais? Olha esse aplicativo do Codecademy! Responda quizes, faça exercícios de completar e aprenda a teoria por trás dessas linguagens e muitas outras! Baixe de graça pra Android e IOS!

VAGAS DA SEMANA

Conhecimentos avançados em SQL/NoSQL, Java, Cloud, Processamento de Dados massivos.

Linguagens e Lógica de Programação, Bancos de Dados. 

O guia hacker para incerteza e estimaçãoMuitos Cientistas de Dados vem de um background não muito profundo em estatística e entendem pouco sobre distribuições, intervalos de confiança , margens de erro e amostragem. Erik Bernhard, ex-Spotify, contribuidor do Luigi, atual Better, escreveu este post pra nos ajudar! Com exemplos práticos em Python, Erik mostra como funcionam estimadores simples, como a média até estimativa por máxima verossimilhança. Dê tchau pras suas dúvidas no assunto! (em inglês).

PRÓXIMOS EVENTOS E MEETUPS

17 E 18 de Outubro

ONLINE - GRATUITO

10 e 11 de Novembro (sábado e domingo)

Belo Horizonte/MG- R$ 899