• Data Hackers Newsletter
  • Posts
  • Descubra qual a maior dificuldade dos Cientistas e Analistas de Dados (e como superá-la)! 😬

Descubra qual a maior dificuldade dos Cientistas e Analistas de Dados (e como superá-la)! 😬

Text Hero: A lib em Python que vai te ajudar a dominar a arte de processar, analisar e extrair insights de textos partindo do zero

Fala Data Hackers, segunda = dia de ler a sua newsletter preferida! Hoje o assunto é sério. Resolvemos trazer como principal conteúdo um tema que é um grande desafio para a maioria dos Cientistas de Dados e Analistas de Dados, a chamada "produtização" de modelos de Machine Learning.Certamente a maioria de vocês já está acostumado a fazer diversas análises, gerar insights e até mesmo criar modelos de Machine Learning. Mas o que fazer quando existe a necessidade de que esse modelo seja automatizado ou integrado a uma aplicação? Bom... é exatamente sobre isso que vamos falar hoje, fique atento! Depois disso vamos mostrar como utilizar técnicas de processamento e analise de textos (chega de word cloud);  apresentar um verdadeiro tutorial de como criar um modelo preditivo utilizando dados abertos do governo e o Amazon SageMaker; vamos mostrar o que há de novo no Matplotlib 3; compartilhar as dicas do Andrew NG para ler textos científicos; vamos falar de feature engineering para variáveis categóricas, e compartilhar um papo sobre o uso de dados no marketing digital.  No final como você já sabe vamos compartilhar vagas de emprego e eventos (gratuitos e online).É muito conteúdo, então já vai se organizando para preencher toda sua semana com assuntos relacionados ao mundo dos dados!

Dessa vez o Data Hacker Andre Sionek resolveu compartilhar com a comunidade um post que é um verdadeiro "tapa na cara". Ele decidiu falar abertamente sobre uma das maiores dores dos analistas de dados e cientistas de dados na atualidade:

O que fazer quando o modelo precisa sair da sua máquina e ser automatizado, seja rodando periodicamente ou gerando outputs para uma aplicação?

A verdade é que o mundo real vai muito além do desafio do Titanic e você como profissional de dados precisa estar cada vez mais preparado para resolver esse tipo de desafio no seu dia a dia, ou pelo menos encontrar quem vai conseguir te apoiar nisso e são exatamente esses pontos que esse post vai te ajudar a compreender, compartilhando ferramentas, estratégias e até mesmo um repositório para te ajudar a ganhar tempo.

Esse é mais um daqueles posts pra salvar no favoritos. (em Português)

Você ainda utiliza "word cloud" toda vez que precisa extrair informações de um conjunto de textos?

Se a resposta para a pergunta acima foi sim, você precisa conhecer a lib Text Hero. Com o objetivo de facilitar a vida de analistas de dados que tem esse desafio, essa biblioteca reúne as técnicas e estratégias mais conhecidas relacionadas a processamento de textos em um só lugar. Além disso eles possuem um tutorial explicando como e quando utilizar cada técnica. (em Inglês)

 

Nesse post incrível, o Data Hacker Carlos Eduardo Souza fez um verdadeiro tutorial mostrando como criar um modelo de Machine Learning capaz de prever acidentes com vítimas nas rodovias brasileiras utilizando dados abertos da polícia federal e o Amazon SageMaker. Se você tem interesse por Análise de Dados Abertos, Modelagem preditiva ou Machine Learning na Cloud não deixe de ver esse post. (em Português)

O Data Hacker Lucas de Brito Silva, fez esse rápido tutorial explicando como funcionam as técnicas de OCR e como dar os primeiros passos para fazer esses modelos. (em Português)

A grande maioria dos cientistas de dados acredita que a única forma de processar features categóricas é através da velha conhecida técnica "one-hot-encoding". Visando mostrar que esse nem sempre é o melhor caminho esse post trás 10 alternativas a já conhecida técnica. (em Inglês)

Ler e interpretar papers científicos da área de dados nem sempre é uma tarefa fácil, tópicos relacionados a inteligência artificial estão cada vez mais complexos e o volume de publicações tem sido cada dia maior. Para tornar essa tarefa um pouco mais fácil ninguém menos que Andrew NG (fundador do Coursera e deeplearning.AI) compartilhou algumas dicas e estratégias (passo a passo), vale muito a pena conferir. (em Inglês)

Se você é uma usuário assíduo da biblioteca Matplotlib para Python fique por dentro de todas as novidades da última e mais recente versão. (em Inglês)

VAGAS DA SEMANA

  • Gestão de pessoas

  • Gerenciamento de projetos ou Produtos de Dados e AI (+4 anos)

  • Modelos de Machine Learning e/ou Deep Learning

  • Forte capacidade analítica com experiência em modelagem de dados e análises

  • Conhecimentos em limpeza, tratamento e organização de dados

  • Conhecimento em modelos de Machine Learning/Modelagem preditiva

  • Experiência em computação distribuída

Nesse vídeo Mario Filho e Nina Oliveira batem um papo sobre aplicações de Data Science na área de Marketing Digital. Em um papo descontraído eles abordam desde análises mais simples para entender o desempenho das campanhas publicitárias até sistemas complexos de atribuição de múltiplos canais para entender o que influencia o comportamento de cada cliente durante a decisão de compra. (em Português)

Entenda como um ataque hacker no Twitter rendeu mais de 100 mil dolares em apenas 3 horas Se você é usuário do Twitter certamente se impressionou essa semana quando diversas celebridades resolveram, quase que simultaneamente, se tornar filantropos e fazer diversas campanhas em que devolveriam em dobro todo o dinheiro arrecadado... A verdade é que tudo isso não passou de um ataque Hacker que obrigou a rede a bloquear todas as grandes contas, por um certo tempo e voltar a ter controle da situação. Para explicar melhor essa história o New York Times fez um Dataviz incrível, mostrando que os dados são uma excelente ferramenta para ajudar os jornalistas a traduzirem histórias para o público. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

21 de Julho de 2020 - Evento online gratuito

04 e 05 de agosto de 2020 - Evento online gratuito

24 e 25 de Agosto de 2020 - Evento online gratuito