• Data Hackers Newsletter
  • Posts
  • Chega de dashboards do COVID-19. Que tal aprender epidemiologia e ajudar ainda mais no combate a pandemia? 💊🔍💉

Chega de dashboards do COVID-19. Que tal aprender epidemiologia e ajudar ainda mais no combate a pandemia? 💊🔍💉

O teorema mais maluco de todos os tempos está prestes a ser comprovado, ele tem tudo a ver com Data Science e você pode acompanhar a comprovação em tempo real!

Fala, Data Hacker! Apesar de alguns malucos acharem que tudo já voltou ao normal, continuamos produzindo sua newsletter favorita sob distanciamento social. A verdade é que qualquer pessoa que entende minimamente de dados que analisar o crescimento das curvas de contagio e mortes por COVID-19 no Brasil vai ver que infelizmente a situação está cada vez mais complicada.Então lembre-se: #FiqueEmCasaNa news de hoje vamos vamos dar algumas dicas para todos aqueles profissionais de dados que desejam contribuir de alguma forma na luta contra o Corona Vírus.  E tem mais, vamos mostrar como dois pesquisadores estão utilizando Data Science para tentar comprovar na prática um dos teoremas mais malucos de todos os tempos; vamos entender como a força aérea americana encontrou um dilema ao analisar dados e como isso foi importante para a evolução das análises; vamos falar um pouco sobre o uso de P-valor; vamos apresentar um possível substituto para a análise de correlação; um tutorial sobre stacking de modelos de ML e muito mais.Agora já está pronto para começar? Vamos lá!

OS IMPACTOS DA COVID-19 NA ÁREA DE DADOS E TECNOLOGIA

Não é novidade que o COVID-19 está impactando muitos negócios, a ponto de empresas precisarem demitir pessoas e até times inteiros. Pensando nisso, nós da comunidade Data Hackers decidimos fazer uma ação pra tentar ajudar os profissionais de tecnologia e dados que foram demitidos devido a essa crise e agora estão à procura de novas oportunidades.Criamos uma planilha, centralizando as informações dessas pessoas para compartilhar com profissionais de RH e empresas parceiras.Se você está passando por esse difícil momento ou conhece alguém que esteja, envie uma mensagem para nós no email [email protected] para incluirmos o nome nessa lista. Se você é da área de RH ou trabalha numa empresa que continua contratando mesmo diante dessa crise, acesse a planilha e se tiver qualquer dúvida por favor entre em contato com a gente no mesmo email.

 

Estamos passando por um momento extremamente crítico e um ponto positivo disso tudo é que muitas pessoas estão se unindo para ajudar a sociedade nessa luta.Vemos artistas fazendo live em busca de arrecadações, empresários e empresas fazendo doações, cientistas de diferentes países unindo esforços, laboratórios e indústrias liberando patentes, makers se juntando para produzir EPI's em impressoras 3D, profissionais da saúde fazendo trabalho voluntário e por aí vai...Na verdade poderíamos ficar horas listando inúmeras atitudes positivas que temos visto todos os dias e na área de dados não tem sido diferente, vemos pessoas se unindo para facilitar o acesso a dados abertos, competições de machine learning com o foco em soluções para a crise do COVID-19 (desde detecção de imagens para o diagnóstico da doença até a criação de modelos preditivos relacionados ao avanço da pandemia) mas o que mais temos visto sem sombra de dúvidas são dashboards, dashboards e mais dashboards...Sabemos que toda iniciativa é válida, principalmente se o objetivo é ajudar, mas nos sentimos na obrigação de dar uma dica para toda a comunidade antes de sair fazendo dashboards: Estude epidemiologia!Se o termo ainda é novo para você a Epidemiologia é a área do conhecimento que estuda o processo saúde-doença em populações humanas, com o objetivo de prevenção e controle, e ela engloba importantes aspectos de clínica, estatística e medicina social.E para ajudar os Data Hackers a aprender mais sobre o tema trouxemos uma lista com mais de 10 cursos (gratuitos e online) de algumas das maiores universidades do mundo sobre epidemiologia.Não podemos nos esquecer que o conhecimento da área de negócio é um dos pontos chaves de qualquer projeto de Data Science, e quando o assunto é COVID a epidemiologia e medicina são essenciais para orientar as nossas análises.Que tal aproveitar a quarentena para se aprofundar nesse tema?

Você já ouviu falar no "Teorema do macaco infinito"? De uma forma resumida, o teorema afirma que um macaco digitando aleatoriamente em um teclado por um intervalo de tempo infinito irá quase certamente criar qualquer texto já existente, como por exemplo a obra completa de William Shakespeare.

Parece maluco, mas esse teorema foi amplamente discutido na academia e já existem até provas matemáticas a respeito dele, mas agora ele voltou a ser assunto pois dois malucos resolveram aproveitar a quarentena para comprovar o teorema em tempo real.

Ao invés de macacos eles estão utilizando computadores com alto poder de processamento, e utilizando a geração aleatória de notas musicais para compor do zero algumas composições famosas (no momento já conseguiram até gerar uma música do Queen depois de quase 3 bilhões de tentativas). 

O mais legal disso tudo é entender melhor o teorema, ver o passo a passo feito na comprovação e aguardar os próximos resultados, se tiver paciência é claro (o sistema ainda vai gastar 20 anos para compor Seven Nation Army do Jack White...)  (em Inglês)

 

O ano era 1940 e a força aérea americana estava prestes a se deparar com um dos maiores dilemas que já enfrentaram quando o assunto é análise de dados: "A falha das médias".

publicado no The Star, mostra com detalhes como essa história toda aconteceu e trás muito aprendizado para todos os profissionais de dados.

Se você gosta de história, análise de dados ou dos dois, não deixe de ler esse artigo.

(em Inglês)

Não é novidade para ninguém que a análise de correlações apresenta sérios problemas (se você duvida veja essas

), mas apesar disso ela continua sendo utilizada no processo de análise de dados e criação de modelos de ML. Nesse artigo o cientista de dados Florian Wetshoreck apresenta uma solução que promete substituir a análise de correlação de uma maneira mais eficiente o PPS. (em Inglês)

O Data Hacker Nicholas Richers transformou um tópico de discussão do Slack do Data Hackers em um excelente post para toda a comunidade. A motivação foi que ele estava estudando stacking de modelos de ML mas não sabia qual a melhor lib para auxiliar nessa tarefa e como a discussão bombou ele teve a ideia de trazer os principais pontos da conversa para

. Se você está interessado no assunto vale a pena conferir pois o post é um verdadeiro tutorial.  (em Português)

Está um pouco enferrujado em estatística e ainda se confunde ao analisar o P-Valor de um teste ou parâmetro de modelo? Esse post vai ensinar como interpretar e quando utilizar ou não o p-valor. (em Inglês)

VAGAS DA SEMANA

  • Experiência com ferramentas de big data da AWS: Athena, Glue, Lambda, Redshift, EMR, S3, Spark, Kafka, ou outros

  • Experiência em construção e manutenção de um Data Lake

  • Experiencia ferramentas de streaming de dados

  • Hadoop ou Spark

  • ETL/ELT

  • De 3 a 5 anos de experiência na função de analista de BI

  • Monitoramento de resultados de análise e métricas

  • Implementação de metodologias de análise de dados

Para quebrar um pouco o costume de trazer apenas livros muito técnicos e que falam apensas de números e fórmulas matemáticas, apresentamos o livro "The end of Average" do autor Todd Rose, especialista em psicologia comportamental, como um complemento ao artigo da força aérea que apresentamos no início dessa newsletter. (em inglês)

Será que o Brasil está fazendo tudo errado?Veja o índice que mostra a resposta dos governos à pandemia e descubraA equipe do Nexo Jornal fez mais um trabalho incrível investigando dados relacionados ao COVID-19, e dessa vez o tema foi como cada país tem reagido em relação a pandemia. Curioso para saber se o Brasil está indo no caminho certo ou negligenciando as medidas? Veja o post e tire suas próprias conclusões.(em Português)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

29 e 30 de Abril de 2020

29 de Abril de 2020

30 de Abril de 2020