- Data Hackers Newsletter
- Posts
- Data Cleaning É Análise! 🚿
Data Cleaning É Análise! 🚿
Aprendendo a usar o Kedro para organizar seus projetos de Data Science
Fala, Data Hacker! Ah, chegou mais uma demanda e lá vem aqueles dados todos zoados. É um saco não é? Será que não podemos, não só deixar esse processo de limpeza mais simples, mas também utilizá-lo como parte de nossa análise? O destaque dessa nossa news é o texto incrível do Randy Au, Data Scientist/UX Researcher no Google. Randy escreve de maneira muito profunda e direta sobre Data Cleaning e como esse processo é importante na construção de qualquer ciência nos dados.E tem bem mais: Facebook AI libera um projeto pra fazer benchmark de IA, aprendendo os fundamentos de Data Engineering, eventos muito bacanas e vagas sensacionais! Bora!?
Todo novo cientista de dados vive reclamando que a etapa de limpeza de dados é chata. Esse artigo incrível do Randy Au, atual UX Researcher/Data Scientist na Google, mostra o quanto é importante o processo de limpeza durante a análise. Além de liminar bugs que podem ocorrer pelo erro na entrada dos seus algoritmos, diminui na maneira correta a variancia nos dados, além de (tentar) eliminar viéses. Randy ainda destaca como é importante saber manter toda a trilha dessas limpezas, que representam toda a vida dos dados, desde o input do sistema/usuário, até o cientista que analisa. Imperdível! (em Inglês)
Essa é uma aula sensacional do
, sobre o Kedro, uma das plataformas mais bacanas para produtizar Data Science!
Nesse tutorial completaço, você vai aprender: como criar seu projeto, como conectar e documentar seus datasources, fazendo os pipelines de transformação e, por fim, como fazer o deploy do seu modelo! Incrível demais! (em Inglês)
O pessoal do Facebook AI, time que estuda inteligência artificial na empresa, criou o Dynabench, que é um sistema que avalia modelos de IA utilizando como base como eles "enganam" os seres humanos! O Dynabench vai dar uma forma muito ágil para pesquisadores testarem seus modelos, utilizando a cloud do Facebook, com Captum para interpretabilidade e torchserve para publicação. Ele também usa o Mephisto para anotar os feedbacks dos usuários. (em Inglês)
O Data Hacker Tiago Augusto está escrevendo uma série de posts onde ele ensina como usar a lib Dash para criar layouts web responsivos e bonitos, sem ter que sair do seu amado Python. Segue a parte 1, onde ele ensina a usar o componente para fazer uma tela básica em HTML. (em Português)
Continuando a série publicada na semana anterior no blog do Data Hackers, eu, Allan Sene, CTO e Co-Founder da DataSprints, escrevi a primeira parte do Roadmap, explicando o porquê desses fundamentos apontados serem tao importantes e quais cursos recomendo para você iniciar nesse mundo de Engenharia de Dados! (em Português)
Se você está inserido no mundo dos dados e passou batido nesse IPO, sugiro que pesquise um pouco mais agora! O Snowflake, plataforma de dados na nuvem, competidora direta de AWS Redshift e Google BigQuery, abriu capital no maior IPO do ano, sendo o maior IPO da história de uma empresa de tecnologia. Esse post traz 5 motivos pra esse bafafá todo que rolou! (em Ingles)
VAGAS DA SEMANA
Experiência em cloud
XP com Data Lakes, DW, SQL e NoSQL
Conhecimento em SOLR, Elasticsearch ou Lucene;
Conhecimento em ferramentas de orquestração como Apache Airflow ou equivalentes.
Graduado ou cursando superior em exatas
Conhecimento com SQL e Python
Experiência com: Tableau, Power BI, Metabase ou outras
Conhecimento em AWS ou Google será um diferencial.
O menino Python tem pesadelos com o monstro Java todas as noites.
Distribuição dos Impostores em Among UsEsse aqui eu tive que trazer! Among Us é um dos joguinhos do momento: tem meme, quadrinho, videos no YouTube... TUDO na internet tá falando da diversão de se encontrar um impostor assassino no espaço. Esse gráfico compilou, através de 250 medições, qual a cor mais comum do vilão do game: o Impostor! (em Inglês)
PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]
07 a 22 de Outubro de 2020 - Online Gratuito
06 a 16 de outubro de 2020 - Online Gratuito
30 de Novembro a 18 de Dezembro de 2020 - Online gratuito