Data Hackers Newsletter
Posts
Guia completo para análise de dados públicos no Brasil 📚

Guia completo para análise de dados públicos no Brasil 📚

O Landscape das ferramentas de MLOps em 2020

Data Hackers
January 18, 2021 • Tempo de leitura estimado: 8 minutos

Fala Data Hackers! Analisar dados nunca é uma tarefa fácil. Quando estamos falando de dados públicos ainda, num país da dimensão do Brasil, a parada vira nível Super Hard mesmo! Pensando em nos ajudar nesses épicos, uma galera do ENAP - Escola Nacional de Administração Pública - compilou em um guia de mais de 250 páginas vários estudos sobre como os dados em domínios como Saúde, Segurança Pública, Educação, entre outros, estão dispostos e quais as "ARMADILHAS" tais dados trazem consigo. Com dicas muito pertinentes para qualquer realidade, o guia passa por diversos casos onde a falta de interpretação das fontes e análises adhoc trazem resultados enviesados, muitas vezes reproduzidos pela imprensa ou outros órgãos por aí.E mais: White House cria seu primeiro escritório para tratar de IA, o passado, presente e futuro da stack de dados no mercado, como processar dados de aviões em tempo-real, vagas, memes e muito mais!

Guia Brasileiro de Análise de Dados: Armadilhas e Soluções

O pessoal do ENAP - Escola Nacional de Administração Pública - vinculada ao Ministério da Economia compilou em mais de 250 páginas uma série de estudos utilizando-se de análise de dados públicos disponíveis no Brasil. O guia passa por assuntos como Criminalidade, Pobreza, Saúde e Macroeconomia, todos abordados de forma bem científica.O mais bacana do guia é que cada pesquisador levanta quais "armadilhas" identificaram no meio dos dados e quais foram as estratégias utilizadas para fugir dos viéses que os dados mostravam a priori. Muita das vezes, até o cômputo dos dados não ser claro, como no caso de homicídios não ser o de vítimas, mas de casos, podem levar muitos analistas não-experientes ao erro. Inclusive, o estudo destaca várias vezes que a imprensa, por falta de know-how e de entendimento das "armadilhas", divulga manchetes enviesadas, sem considerar as preocupações ao investigar a origem dos dados e suas definições.Esse guia é imperdível para aqueles que querem trabalhar com dados públicos! (em Português)

O Landscape das ferramentas de MLOps em 2020

O mercado de dados está bombando! Você já viu por aqui muitas matérias sobre startups recebendo investimentos para resolver os mais diversos problemas no mundo de dados.

Esse artigo do Chip Huyen muito bacana traz uma visão orientada a dados de como foi o ano para essas empresas, em termos de funding.

Destaque para o quanto ferramentas de Data Pipeline e de Treinamento de ML dominaram os investimentos, sinal que vem muita coisa boa por aí nessas áreas pra nos ajudar no dia a dia! (em Inglês)

Analytics em Tempo-Real na Indústria de Aviação

Sonho de trabalho de muita gente, a indústria de aviação é uma das que mais produz e depende de dados. O Data Hacker Maikel Penz, que trabalha na

Spidertracks

, lá da Nova Zelândia, contou um pouco sobre os desafios de se construir uma arquitetura que seja confiável para processar grandes volumes de dados em tempo-real e qual foi o processo de decisão para escolher AWS Kinesis frente a outras alternativas para resolver tais problemas.

Lembrando que o Maikel já esteve presente em um dos nossos podcasts, falando sobre Data Lakes.

Clique aqui pra escutar

! (em Inglês)

A Stack Moderna de dados: Passado, Presente e Futuro

Uma das maiores referências em engenharia de dados do mundo, Tristan Handy, um dos criadores do DBT, escreveu no final do ano um texto muito incrível expondo suas opiniões sobre as ferramentas e desafios do mundo de dados atual. Tristan levanta os pontos que estamos resolvendo bem com plataformas e quais ainda estão por ser resolvidos. Não deixe de ler!

Casa Branca lança a um escritório nacional para IA

Em um dos seus últimos feitos, Trump dá um passo relevante e benéfico pra toda sociedade: criou um Bureau exclusivo para tratar assuntos relacionados a IA nos EUA. O escritório vai investir em iniciativas nacionais de pesquisa, deliberar sobre regulações e leis, além de incentivar o desenvolvimento de IA no governo para seu uso em políticas públicas. (Em Inglês)

Selecionando Features para seu modelo

Continuando o trabalho sensacional do

primeiro texto

, o Data Hacker Gustavo Santos volta a nos ensinar como podemos escolher features ideais para nossos modelos de Machine Learning, agora de maneira prática, utilizando funções do Scikit-Learn. (Em Português)

VAGAS DA SEMANA

Senior Cloud Engineer - Rocket Chat

Conhecimentos em Unix/Linux
Experiencia com bare-metal e cloud
Experiencia com containeres, em Rancher ou Kubernetes
Experience working with tools like ansible / chef / puppet
Good async communication skills
English speaking for communicating with teammates around the world

Machine Learning Engineer - Coodesh

3-5 anos de experiência em modelagem matematica
Formação em Engenharia, Matemática, Estatística ou áreas correlatas
Sólidos conhecimentos Machine Learning
Domínio de Java, Scala ou Python
Experiência específica com Libs e implementações de ML

Workshop: Começando com DockerJá falamos várias vezes como o Docker é uma das ferramentas mais úteis, tanto para engenheiros quanto cientistas de dados. Nesse workshop, dado pelos próprios mantenedores do projeto, você vai poder iniciar seus passos com conteineres, de forma a entregar seus modelos em produção de forma fácil e ágil. Imperdível!

Quem nunca? UPDATE sem WHERE faz parte da formação de caráter de todo profissional de dados

Com quem passamos nosso tempo, dos 15 aos 80

O canal Statpanda fez uma visualização bem bacana, usando os dados coletados pelo Departamento do Trabalho dos EUA, entre 2009 e 2019: mostrou visualmente com quem passamos mais tempo na nossa vida. Os dados consideram minutos por dia. Interessante notar o quanto ficamos cada vez mais sozinhos conforme envelhecemos. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

Re.Work: Deep Learning 2.0 Virtual Summit

28 e 29 de Janeiro de 2021 - Evento Pago e 100% Online

ODSC East: Opens Data Science Conference

30 de Março a 01 de Abril de 2021 - Evento Pago e 100% Online

Ai4 2021: Exploring Artificial Intelligence Across Industry

17 a 19 de Agosto de 2021 - Evento Pago e 100% Online