O pior erro que um Cientista de Dados pode cometer (e como evitá-lo)

Usando Teoria dos Jogos para interpretar modelos de Machine Learning

Fala, Data Hackers. Seja bem-vindo a mais uma newsletter! Nessa semana nós iremos te trazer dicas sobre como evitar um erro grave trabalhando em Data Science; como criar um detector de sotaques portugueses; e até conhecer o "Jupyter Notebook" da Netflix. Vamos lá?

Nossa pesquisa anual continua a todo ritmo! Ajude-nos a mapear o mercado brasileiro de Data Science em menos de 5 minutos. Se você já participou, que tal nos ajudar a divulgar nas redes sociais para que mais pessoas possam contribuir?

Vale lembrar que os dados da pesquisa não serão utilizados para fins comerciais e todo o resultado será descaracterizado e anonimizado antes da divulgação.

Em uma entrevista muito bem feita, o Towards Data Science traz um papo com Maura Church, Head de Data Science no Patreon. Nesse papo de cerca de 20 minutos, Maura debate não só o dia a dia do time em uma das maiores empresas de San Francisco, mas também dá dicas sobre como podemos entregar valor com Ciência de Dados. (em Inglês)

Cada vez mais está sendo importante a interpretação de modelos para o negócio. Embora várias ferramentas e metodologias estejam disponíveis, é impossível falar de interpretabilidade de modelos sem mencionar Shapley Values. Mas, afinal, o que é isso? O Data Hacker Marcos Silva fez um trabalho incrível ao reunir esse guia completo falando do assunto. (em Português)

 

Em sua primeira contribuição ao Data Hackers, Marek K. Cichy (um Polonês tradutor de Português e que se aventura em Machine Learning) nos traz um post onde ele conta como criou um projeto de NLP que identifica sotaques português. Além de criar o modelo em si, Marek mostra como criou uma aplicação web com Flask para

. (em Português)

Viéses são um dos maiores inimigos de um profissional, não só de Data Science. Contudo, quando falamos de Machine Learning, viéses como amostragem e mensuração podem gerar um grande impacto negativo no projeto. Nesse post de Salma Ghoneim, ela lista alguns desses viéses e como evitá-los. (em Inglês)

A Lyft tinha uma necessidade específica para um profissional de dados. Esse profissional precisava ser um engenheiro com capacidades práticas de produtização de Machine Learning, além de um alto conhecimento em boas práticas de Engenharia de Software. Esse profissional é chamado de Machine Learning Software Engineer, ou ML SWE. Nesse post bem detalhado, Hao Yi Ong, Research Scientist da Lyft, detalha o processo de entrevista desse profissional. (em Inglês)

A Netflix lançou de forma open-source sua ferramenta de notebooks inspirada em IDEs, tendo suporte nativo a Scala e Spark. Dentre suas funcionalidades, Polyglot oferece desde maior facilidade a reproducibilidade, até você utilizar duas linguagens diferentes em um mesmo notebook. Conheça mais sobre a ferramenta nesse post do blog do Netflix. (em Inglês)

Na última semana rolou o evento "Sooner Than You Think", da Bloomberg, que trouxe ninguém mais ninguém, ninguém menos, que Andrew Ng, fundador da Coursera e ex-Diretor de AI da Google Brain e Baidu. Em um papo bem completo, Andrew Ng mostra sua visão sobre o futuro do AI e suas aplicações nas mais diversas indústrias. Vale muito a pena conferir. (em Inglês)

VAGAS DA SEMANA

  • Cursando ensino superior;

  • Conhecimento básico em Python e R;

  • Ótima capacidade analítica;

  • Boa comunicação;

  • Conhecimento básico em Estatísticas

  • 5+ anos de experiência;

  • Confortável em usar Git e Linux;

  • Experiência em criação de REST APIs;

  • Experiência criando testes automatizados

Como a Internet dá risadasCom o passar dos tempos, a Internet cria novas e diferentes formas de dar risadas. Para entender como tem sido seu uso ao longo do tempo, o pessoal do The Pudding fez uma análise em mais de 700 milhões de comentários do Reddit de Janeiro a Junho de 2019. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

18 - 20 de novembro de 2019

UFBA - Salvador/BA

23 de novembro de 2019

Faculdade Senac - Brasília/DF - R$ 50

27 de novembro de 2019

Online - Gratuito