Data Hackers Newsletter
Posts
Um guia prático para explorar qualquer projeto de dados! 🔎 😮

Um guia prático para explorar qualquer projeto de dados! 🔎 😮

2 Libs para processar grandes volumes de dados no Python

Data Hackers
March 15, 2021 • Tempo de leitura estimado: 9 minutos

E aí Data Hackers! Preparados para começar mais uma semana se atualizando com as novidades do mundo dos dados?Hoje resolvemos começar com um tema super pertinente para qualquer profissional da área de dados, a Análise Exploratória de Dados (EDA). Além de abordar esse tema, trouxemos um verdadeiro guia passo a passo estilo "pode copiar mas não faz igual", com exemplos de códigos que vão te poupar tempo e te tornar um profissional ainda mais produtivo.E não para por aí, teremos conteúdos sobre processamento de dados em larga escala no Python, monitoramento de modelos de ML em produção, técnicas de regularização, tratamento de "dados faltantes" (missing data), otimização de consultas e muito mais. No final da newsletter, como de costume temos ainda exemplos de dataviz, dica de vídeo, vagas de emprego e os eventos imperdíveis da área de dados que estão perto de acontecer.Vamos nessa?

Um guia prático para explorar qualquer Projeto de Dados: 11 blocos de códigos essenciais para realizar a Análise Exploratória dos Dados (EDA)

Na minha opinião, um dos temas mais subestimados pelos profissionais de dados (não importa a posição) é a análise exploratória dos dados também conhecida como EDA (do inglês, exploratory data analysis).

Já perdi a conta de quantas vezes vi Cientistas de Dados partindo para o desenvolvimento de modelos complexos sem nem ao menos entender o contexto dos dados que estavam sendo trabalhados, engenheiros de dados "fritando" em pipelines de dados para resolver problemas que poderiam ser facilmente solucionados com um melhor entendimento do dataset e analistas de dados tomando decisões sem sentido para o negócio, por não ter feito uma análise exploratória dos dados.

Eu mesmo já me deparei com algumas dessas situações e bateu aquele arrependimento de ter pulado uma etapa tão importante do fluxo de análise de dados.

Se você também já passou por isso não deixe de ler esse post incrível, ele não só apresenta um passo a passo para o processo de EDA, mas também compartilha 11 blocos de códigos essenciais para essa etapa, um exemplo no estilo "pode copiar mas não faz igual". (em inglês)

2 Libs para processar grandes volumes de dados no Python

“Para quem só sabe usar o martelo, todo problema é prego”. É exatamente isso que penso quando vejo os cientistas de dados utilizando o Pandas para todo e qualquer problema envolvendo o processamento de Datasets. Esse post apresenta 2 bibliotecas interessantes para quem trabalha com grande volume de dados e está em busca de ter mais produtividade.

(em Inglês)

Um checklist para monitoramento de modelos de Machine Learning em produção

Sem querer desanimar quem ainda é novo na área de ML mas a validação de um modelo de Machine Learning está bem longe de ser a etapa final do seu trabalho. Após um modelo ir pra produção é preciso realizar um acompanhamento bem complexo para garantir que o seu modelo continua funcionando bem, e isso envolve diversos aspectos que precisam ser monitorados.

Esse post propõe um checklist de acompanhamento para facilitar a vida de quem precisa colocar e acompanhar modelos de ML em produção.

(em Inglês)

O que é Regularização e quando aplicar essa técnica em seus modelos

Já ouviu falar em regularização de modelos de regressão? O Data Hacker Gustavo Santos fez um post detalhando como o uso dessas técnicas podem ajudar a reduzir o volume de features do seu modelo, deixando a solução final mais simples de ser interpretada e mais eficiente. (em Português)

Tratamento e Transformação de Dados NaN: Uma visão geral e prática

Se você já analisou dados tenho certeza que já se deparou com dados faltantes, também conhecidos como missing data, NaN, dados perdidos etc. Isso é algo tão comum na área de dados que ao longo dos anos surgiram inúmeras técnicas que um analista pode utilizar para tratar esses dados e reduzir o viés da análise. O Data Hacker Iury Rosal decidiu compartilhar algumas dessas técnicas de forma prática utilizando o Pandas e SKlearn, vale a pena conferir. (em Português)

Como repensar e otimizar suas consultas (queries)

Ta bom... Talvez não seja nenhuma novidade para você que suas consultas SQL estejam cada dia mais lentas, custosas e pesadas, mas sabia que grande parte dos problemas que você tem com essas consultas sejam consequência de você mesmo não ter otimizado as consultas da melhor maneira? Esse post do Data Hacker Ricardo Pinto apresenta uma visão geral sobre otimização de consultas SQL e com exemplos práticos. Que tal começar sua segunda-feira arrumando essa bagunça? (em Português)

VAGAS DA SEMANA

Data Engineer (Exclusivo para mulheres) - Trybe

Python/Pyspark
SQL
SparkSQL
Cloud (de preferência AWS)

Estágio em Analytics - EmCasa

Cursando Administração, Engenharias, área de Exatas
Previsão de graduação 2022/2023
Estágio de 6 horas por dia
Inglês avançado para escrita e leitura de códigos e ferramentas do dia a dia
Perfil analítico

Congresso de Estatística 2021 - Portfólio de Soluções com Dados: Quais competências serão atrativas no futuro?

Nesse final de semana rolou o Congresso de Estatística - CONE 2021 e um dos painéis de maior destaque no congresso contou com a participação do co-founder do Data Hackers Allan Sene, Teo Calvo e Danilo Costa, debatendo sobre quais serão as competências mais atrativas no futuro das profissões de dados. O vídeo acabou de sair do forno e já está disponível no canal de youtube do evento. Vale a pena conferir! (em Português)

Quem nunca passou por isso que atire a primeira pedra...

Obs: Recebemos esse meme pelo whatsapp se você foi o autor dessa pérola ou conhece o criador nos avise para darmos a devida referência!

Quais os conteúdos da Netflix que estão prendendo as pessoas em casa durante a pandemia? Gráfico interessante mostrando as principais séries disponíveis na Netflix que estão prendendo os americanos em casa durante o período de isolamento social, mesmo sendo um gráfico sobre o consumo de conteúdos nos USA da pra ver que existe uma forte relação com o que é consumido no Brasil. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

ML 101 on Google Cloud Platform

23 de Março - Evento Gratuito e 100% Online

Chat com Andrew NG - MLOps: From Model-centric to Data-centric AIummit 2021

24 de Março - Evento Gratuito e 100% Online

Airflow Summit 2021

08 a 16 de Julho - Evento Gratuito e 100% Online

ODSC East: Opens Data Science Conference

30 de Março a 01 de Abril de 2021 - Evento Pago e 100% Online

Ai4 2021: Exploring Artificial Intelligence Across Industry

17 a 19 de Agosto de 2021 - Evento Pago e 100% Online