Data Cleaning É Análise! 🚿

Aprendendo a usar o Kedro para organizar seus projetos de Data Science

Fala, Data Hacker! Ah, chegou mais uma demanda e lá vem aqueles dados todos zoados. É um saco não é? Será que não podemos, não só deixar esse processo de limpeza mais simples, mas também utilizá-lo como parte de nossa análise? O destaque dessa nossa news é o texto incrível do Randy Au, Data Scientist/UX Researcher no Google. Randy escreve de maneira muito profunda e direta sobre Data Cleaning e como esse processo é importante na construção de qualquer ciência nos dados.E tem bem mais: Facebook AI libera um projeto pra fazer benchmark de IA, aprendendo os fundamentos de Data Engineering, eventos muito bacanas e vagas sensacionais! Bora!?

Todo novo cientista de dados vive reclamando que a etapa de limpeza de dados é chata. Esse artigo incrível do Randy Au, atual UX Researcher/Data Scientist na Google, mostra o quanto é importante o processo de limpeza durante a análise. Além de liminar bugs que podem ocorrer pelo erro na entrada dos seus algoritmos, diminui na maneira correta a variancia nos dados, além de (tentar) eliminar viéses. Randy ainda destaca como é importante saber manter toda a trilha dessas limpezas, que representam toda a vida dos dados, desde o input do sistema/usuário, até o cientista que analisa. Imperdível! (em Inglês)

Essa é uma aula sensacional do

, sobre o Kedro, uma das plataformas mais bacanas para produtizar Data Science!

Nesse tutorial completaço, você vai aprender: como criar seu projeto, como conectar e documentar seus datasources, fazendo os pipelines de transformação e, por fim, como fazer o deploy do seu modelo! Incrível demais! (em Inglês)

 

O pessoal do Facebook AI, time que estuda inteligência artificial na empresa, criou o Dynabench, que é um sistema que avalia modelos de IA utilizando como base como eles "enganam" os seres humanos! O Dynabench vai dar uma forma muito ágil para pesquisadores testarem seus modelos, utilizando a cloud do Facebook, com Captum para interpretabilidade e torchserve para publicação. Ele também usa o Mephisto para anotar os feedbacks dos usuários. (em Inglês)

O Data Hacker Tiago Augusto está escrevendo uma série de posts onde ele ensina como usar a lib Dash para criar layouts web responsivos e bonitos, sem ter que sair do seu amado Python. Segue a parte 1, onde ele ensina a usar o componente para fazer uma tela básica em HTML. (em Português)

Continuando a série publicada na semana anterior no blog do Data Hackers, eu, Allan Sene, CTO e Co-Founder da DataSprints, escrevi a primeira parte do Roadmap, explicando o porquê desses fundamentos apontados serem tao importantes e quais cursos recomendo para você iniciar nesse mundo de Engenharia de Dados! (em Português)

Se você está inserido no mundo dos dados e passou batido nesse IPO, sugiro que pesquise um pouco mais agora! O Snowflake, plataforma de dados na nuvem, competidora direta de AWS Redshift e Google BigQuery, abriu capital no maior IPO do ano, sendo o maior IPO da história de uma empresa de tecnologia. Esse post traz 5 motivos pra esse bafafá todo que rolou! (em Ingles)

VAGAS DA SEMANA

  • Experiência em cloud

  • XP com Data Lakes, DW, SQL e NoSQL

  • Conhecimento em SOLR, Elasticsearch ou Lucene;

  • Conhecimento em ferramentas de orquestração como Apache Airflow ou equivalentes.

  • Graduado ou cursando superior em exatas

  • Conhecimento com SQL e Python 

  • Experiência com: Tableau, Power BI, Metabase ou outras

  • Conhecimento em AWS ou Google será um diferencial.

O menino Python tem pesadelos com o monstro Java todas as noites.

Distribuição dos Impostores em Among UsEsse aqui eu tive que trazer! Among Us é um dos joguinhos do momento: tem meme, quadrinho, videos no YouTube... TUDO na internet tá falando da diversão de se encontrar um impostor assassino no espaço. Esse gráfico compilou, através de 250 medições, qual a cor mais comum do vilão do game: o Impostor! (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

07 a 22 de Outubro de 2020 - Online Gratuito

06 a 16 de outubro de 2020 - Online Gratuito

30 de Novembro a 18 de Dezembro de 2020 - Online gratuito