O que é um cientista de dados, segundo o criador da buzzword

Prevendo a pontuação final do Campeonato Brasileiro de Futebol - Parte 1

Faaala, Data Hackers. Seja muito bem-vindos a mais uma newsletter! Hoje você vai saber finalmente o que é um Cientista de Dados. Bem, na visão do criador. É difícil dizer que a atuação e escopo do Cientista de Dados em 2019 é a mesma de quando o termo foi cunhado há mais de 5 anos, mas, é sempre bom conhecermos a origem para que a gente não perca a essência. Vamos lá que essa news tá boa pra caramba!E mais: o que fazer quando um time de Data Science não entrega valor; um novo framework para interpretação de modelos de ML, e muito mais.

PESQUISA ENCERRADA

Com mais de 1750 respostas, a pesquisa de mercado do Data Hackers foi um sucesso. Muito obrigado a todos que participaram!Em breve iremos disponibilizar os resultados da pesquisa, com os dados devidamente descaracterizados e anonimizados. Fiquem ligados!

Se você perguntar para 10 pessoas o que é um Cientista de Dados, é provável que você receba de volta 10 respostas diferentes. A verdade é que a explicação sobre Data Science é difícil de generalizar, visto que cada empresa aplica de uma forma diferente, de acordo com suas necessidades.Contudo, vale a pena conferir como isso tudo surgiu. Em uma entrevista ao Observer, DJ Patil, ex-Linkedin, ex-U.S. Chief Data Scientist e criador do termo, explica suas motivações para, na época, dar esse nome a um dos cargos mais procurados na atualidade. (em Inglês)

Já pensou seu chefe chegar para você durante uma reunião e dizer que o time de Data Science da empresa não está gerando resultados? Pois foi o que aconteceu a Joel Nantais. Após ouvir isso, Joel começou a analisar e entender como o time poderia trazer mais valor para o negócio. O resultado disso é uma lição não apenas sobre como criar importantes projetos, mas também como criar times de alto impacto. (em Inglês, paywall)

 

Final de ano chegando e com ele vem a final do Brasileirão. Para tentar prever como será a pontuação ao final do campeonato, o Data Hacker Gabriel Fonseca, Cientista de Dados no Clube da Aposta, começou essa série onde mostra como gerou um modelo que realiza essa tarefa. Vale a pena conferir. (em Português)

Um novo framework para interpretabilidade de modelos de Machine Learning apareceu no Slack do Data Hackers essa semana. Utilizando técnicas de boosting e bagging, o InterpretML utiliza um algoritmo da Microsoft chamado de Explainable Boosting Machine para dar mais acurácia. Além disso, ele já suporta métodos conhecidos, como SHAP e LIME. (em Inglês)

Já te deram aquele dataset de 12 GB, mas sua memória só tinha 4 GB? Isso é mais comum do que parece. O pessoal do Python Speed traz um post que mostra como você pode otimizar a leitura de datasets em sua máquina utilizando três técnicas básicas. (em Inglês)

DICA DE LIVRO

Se você está trabalhando ou estudo Deep Learning, essa nova fonte de ensino é indispensável no seu aprendizado. Lançado em Julho de 2019 e sendo muito elogiado por referências na área, o livro "Generative Deep Learning", de David Foster, traz uma abordagem prática (com muitos códigos) sobre conceitos do estado-da-arte na área, com GPT-2, BERT, GANs, e muito mais! (em Inglês)

VAGAS DA SEMANA

  • Machine Learning;

  • Python e/ou Scala;

  • Ferramentas de ML (SageMaker, MLflow);

  • SQL;

  • ETL;

  • Hadoop

  • SQL;

  • ETL;

  • Power BI;

  • Python;

  • Spark;

Uma análise sobre a final da LibertadoresO pessoal do Nexo Jornal (que, por sinal, ganharam um prêmio de Melhor Visualização de Dados no Brasil) fez uma análise bem legal e completa sobre a final do maior campeonato de futebol da América Latina. Dá uma conferida! (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

28 de novembro de 2019 - 19:00

Rio de Janeiro/RJ - Gratuito

Obs: Allan Sene, um dos fundadores do Data Hackers vai participar!

28 de novembro de 2019 - 18:00

Goiânia/GO - Lista de Espera