Guia completo para análise de dados públicos no Brasil 📚

O Landscape das ferramentas de MLOps em 2020

Fala Data Hackers! Analisar dados nunca é uma tarefa fácil. Quando estamos falando de dados públicos ainda, num país da dimensão do Brasil, a parada vira nível Super Hard mesmo! Pensando em nos ajudar nesses épicos, uma galera do ENAP - Escola Nacional de Administração Pública - compilou em um guia de mais de 250 páginas vários estudos sobre como os dados em domínios como Saúde, Segurança Pública, Educação, entre outros, estão dispostos e quais as "ARMADILHAS" tais dados trazem consigo. Com dicas muito pertinentes para qualquer realidade, o guia passa por diversos casos onde a falta de interpretação das fontes e análises adhoc trazem resultados enviesados, muitas vezes reproduzidos pela imprensa ou outros órgãos por aí.E mais: White House cria seu primeiro escritório para tratar de IA, o passado, presente e futuro da stack de dados no mercado, como processar dados de aviões em tempo-real, vagas, memes e muito mais! 

O pessoal do ENAP - Escola Nacional de Administração Pública - vinculada ao Ministério da Economia compilou em mais de 250 páginas uma série de estudos utilizando-se de análise de dados públicos disponíveis no Brasil. O guia passa por assuntos como Criminalidade, Pobreza, Saúde e Macroeconomia, todos abordados de forma bem científica.O mais bacana do guia é que cada pesquisador levanta quais "armadilhas" identificaram no meio dos dados e quais foram as estratégias utilizadas para fugir dos viéses que os dados mostravam a priori. Muita das vezes, até o cômputo dos dados não ser claro, como no caso de homicídios não ser o de vítimas, mas de casos, podem levar muitos analistas não-experientes ao erro. Inclusive, o estudo destaca várias vezes que a imprensa, por falta de know-how e de entendimento das "armadilhas", divulga manchetes enviesadas, sem considerar as preocupações ao investigar a origem dos dados e suas definições.Esse guia é imperdível para aqueles que querem trabalhar com dados públicos! (em Português)

O mercado de dados está bombando! Você já viu por aqui muitas matérias sobre startups recebendo investimentos para resolver os mais diversos problemas no mundo de dados.

Esse artigo do Chip Huyen muito bacana traz uma visão orientada a dados de como foi o ano para essas empresas, em termos de funding.

Destaque para o quanto ferramentas de Data Pipeline e de Treinamento de ML dominaram os investimentos, sinal que vem muita coisa boa por aí nessas áreas pra nos ajudar no dia a dia!  (em Inglês)

 

Sonho de trabalho de muita gente, a indústria de aviação é uma das que mais produz e depende de dados. O Data Hacker Maikel Penz, que trabalha na

, lá da Nova Zelândia, contou um pouco sobre os desafios de se construir uma arquitetura que seja confiável para processar grandes volumes de dados em tempo-real e qual foi o processo de decisão para escolher AWS Kinesis frente a outras alternativas para resolver tais problemas.

Lembrando que o Maikel já esteve presente em um dos nossos podcasts, falando sobre Data Lakes.

! (em Inglês)

Uma das maiores referências em engenharia de dados do mundo, Tristan Handy, um dos criadores do DBT, escreveu no final do ano um texto muito incrível expondo suas opiniões sobre as ferramentas e desafios do mundo de dados atual. Tristan levanta os pontos que estamos resolvendo bem com plataformas e quais ainda estão por ser resolvidos. Não deixe de ler!

Em um dos seus últimos feitos, Trump dá um passo relevante e benéfico pra toda sociedade: criou um Bureau exclusivo para tratar assuntos relacionados a IA nos EUA. O escritório vai investir em iniciativas nacionais de pesquisa, deliberar sobre regulações e leis, além de incentivar o desenvolvimento de IA no governo para seu uso em políticas públicas. (Em Inglês)

Continuando o trabalho sensacional do 

, o Data Hacker Gustavo Santos volta a nos ensinar como podemos escolher features ideais para nossos modelos de Machine Learning, agora de maneira prática, utilizando funções do Scikit-Learn. (Em Português)

VAGAS DA SEMANA

  • Conhecimentos em Unix/Linux

  • Experiencia com bare-metal e cloud

  • Experiencia com containeres, em Rancher ou Kubernetes

  • Experience working with tools like ansible / chef / puppet

  • Good async communication skills

  • English speaking for communicating with teammates around the world

  • 3-5 anos de experiência em modelagem matematica

  • Formação em Engenharia, Matemática, Estatística ou áreas correlatas

  • Sólidos conhecimentos Machine Learning

  • Domínio de Java, Scala ou Python

  • Experiência específica com Libs e implementações de ML

Workshop: Começando com DockerJá falamos várias vezes como o Docker é uma das ferramentas mais úteis, tanto para engenheiros quanto cientistas de dados. Nesse workshop, dado pelos próprios mantenedores do projeto, você vai poder iniciar seus passos com conteineres, de forma a entregar seus modelos em produção de forma fácil e ágil. Imperdível!

Quem nunca? UPDATE sem WHERE faz parte da formação de caráter de todo profissional de dados

O canal Statpanda fez uma visualização bem bacana, usando os dados coletados pelo Departamento do Trabalho dos EUA, entre 2009 e 2019: mostrou visualmente com quem passamos mais tempo na nossa vida. Os dados consideram minutos por dia. Interessante notar o quanto ficamos cada vez mais sozinhos conforme envelhecemos. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

28 e 29 de Janeiro de 2021 -  Evento Pago e 100% Online

30 de Março a 01 de Abril de 2021 -  Evento Pago e 100% Online

17 a 19 de Agosto de 2021 -  Evento Pago e 100% Online