Um guia prático para explorar qualquer projeto de dados! 🔎 😮

2 Libs para processar grandes volumes de dados no Python

 

E aí Data Hackers! Preparados para começar mais uma semana se atualizando com as novidades do mundo dos dados?Hoje resolvemos começar com um tema super pertinente para qualquer profissional da área de dados, a Análise Exploratória de Dados (EDA). Além de abordar esse tema, trouxemos um verdadeiro guia passo a passo estilo "pode copiar mas não faz igual", com exemplos de códigos que vão te poupar tempo e te tornar um profissional ainda mais produtivo.E não para por aí, teremos conteúdos sobre processamento de dados em larga escala no Python, monitoramento de modelos de ML em produção, técnicas de regularização, tratamento de "dados faltantes" (missing data), otimização de consultas e muito mais. No final da newsletter, como de costume temos ainda exemplos de dataviz, dica de vídeo, vagas de emprego e os eventos imperdíveis da área de dados que estão perto de acontecer.Vamos nessa?

Na minha opinião, um dos temas mais subestimados pelos profissionais de dados (não importa a posição) é a análise exploratória dos dados também conhecida como EDA (do inglês, exploratory data analysis).

Já perdi a conta de quantas vezes vi Cientistas de Dados partindo para o desenvolvimento de modelos complexos sem nem ao menos entender o contexto dos dados que estavam sendo trabalhados, engenheiros de dados "fritando" em pipelines de dados para resolver problemas que poderiam ser facilmente solucionados com um melhor entendimento do dataset e analistas de dados tomando decisões sem sentido para o negócio, por não ter feito uma análise exploratória dos dados.

Eu mesmo já me deparei com algumas dessas situações e bateu aquele arrependimento de ter pulado uma etapa tão importante do fluxo de análise de dados.

Se você também já passou por isso não deixe de ler esse post incrível, ele não só apresenta um passo a passo para o processo de EDA, mas também compartilha 11 blocos de códigos essenciais para essa etapa, um exemplo no estilo "pode copiar mas não faz igual". (em inglês)

“Para quem só sabe usar o martelo, todo problema é prego”. É exatamente isso que penso quando vejo os cientistas de dados utilizando o Pandas para todo e qualquer problema envolvendo o  processamento de Datasets. Esse post apresenta 2 bibliotecas interessantes para quem trabalha com grande volume de dados e está em busca de ter mais produtividade.

(em Inglês)

 

Sem querer desanimar quem ainda é novo na área de ML mas a validação de um modelo de Machine Learning está bem longe de ser a etapa final do seu trabalho. Após um modelo ir pra produção é preciso realizar um acompanhamento bem complexo para garantir que o seu modelo continua funcionando bem, e isso envolve diversos aspectos que precisam ser monitorados.

Esse post propõe um checklist de acompanhamento para facilitar a vida de quem precisa colocar e acompanhar modelos de ML em produção.

(em Inglês)

Já ouviu falar em regularização de modelos de regressão? O Data Hacker Gustavo Santos fez um post detalhando como o uso dessas técnicas podem ajudar a reduzir o volume de features do seu modelo, deixando a solução final mais simples de ser interpretada e mais eficiente. (em Português)

Se você já analisou dados tenho certeza que já se deparou com dados faltantes, também conhecidos como missing data, NaN, dados perdidos etc. Isso é algo tão comum na área de dados que ao longo dos anos surgiram inúmeras técnicas que um analista pode utilizar para tratar esses dados e reduzir o viés da análise. O Data Hacker Iury Rosal decidiu compartilhar algumas dessas técnicas de forma prática utilizando o Pandas e SKlearn, vale a pena conferir. (em Português)

Ta bom... Talvez não seja nenhuma novidade para você que suas consultas SQL estejam cada dia mais lentas, custosas e pesadas, mas sabia que grande parte dos problemas que você tem com essas consultas sejam consequência de você mesmo não ter otimizado as consultas da melhor maneira? Esse post do Data Hacker Ricardo Pinto apresenta uma visão geral sobre otimização de consultas SQL e com exemplos práticos. Que tal começar sua segunda-feira arrumando essa bagunça? (em Português)

VAGAS DA SEMANA

  • Python/Pyspark

  • SQL

  • SparkSQL

  • Cloud (de preferência AWS)

  • Cursando Administração, Engenharias, área de Exatas

  • Previsão de graduação 2022/2023

  • Estágio de 6 horas por dia

  • Inglês avançado para escrita e leitura de códigos e ferramentas do dia a dia

  • Perfil analítico

Nesse final de semana rolou o Congresso de Estatística - CONE 2021 e um dos painéis de maior destaque no congresso contou com a participação do co-founder do Data Hackers Allan Sene, Teo Calvo e Danilo Costa, debatendo sobre quais serão as competências mais atrativas no futuro das profissões de dados. O vídeo acabou de sair do forno e já está disponível no canal de youtube do evento. Vale a pena conferir! (em Português)

Quem nunca passou por isso que atire a primeira pedra...

Obs: Recebemos esse meme pelo whatsapp se você foi o autor dessa pérola ou conhece o criador nos avise para darmos a devida referência!

Quais os conteúdos da Netflix que estão prendendo as pessoas em casa durante a pandemia? Gráfico interessante mostrando as principais séries disponíveis na Netflix que estão prendendo os americanos em casa durante o período de isolamento social, mesmo sendo um gráfico sobre o consumo de conteúdos nos USA da pra ver que existe uma forte relação com o que é consumido no Brasil. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

23 de Março - Evento Gratuito e 100% Online

24 de Março - Evento Gratuito e 100% Online

08 a 16 de Julho - Evento Gratuito e 100% Online

30 de Março a 01 de Abril de 2021 -  Evento Pago e 100% Online

17 a 19 de Agosto de 2021 -  Evento Pago e 100% Online