Uma novidade para os Data Hackers em quarentena! 🙌

Deduplicando registros de pacientes com AWS FindMatches

 

Fala, Data Hacker! Todo mundo de quarentena né... Que tal se aproveitassemos esse tempo juntos - porém separados? rs. Já dando SPOILERS, nós do Data Hackers vamos fazer nossa primeira LIVE! É isso mesmo! Imagina poder participar de um podcast, sem cortes, ao vivo, com a gente?Mais infos na última seção da news!Além disso, nessa semana publicamos um episódio especial do podcast: Health Data e o Corona Virus, com participação especial de 2 feras no assunto, um doutorando em bioinformática e um médico/CTO (sim, é isso mesmo! rsrs) Imperdível!E pra fechar com chave de ouro: tendo menos warnings no seu Pandas, extensões supimpas pro Jupyter, ferramenta da AWS pra deduplicação e mais!

E tem uma novidade, nosso site está atualizado e totalmente funcional!

Agora você pode voltar a acompanhar nosso

blog

, o histórico das

newsletters

e também nosso

podcast

diretamente no nosso site!

Lançamos essa semana um episódio bem especial, dadas nossa circustância atual. Convidamos os Data Hackers Matheus Ribeiro-Dantas, doutorando pela Sorbonne University e Pesquisador no Institut Curie, na França — , e Pedro Gemal — Médico e CTO da PebMed, startup brasileira de produção de conteúdo em saúde para falar do assunto do momento: Coronavirus e Health Data!Pra quem não conhece o termo, health data são todos os assuntos que envolver análise e ciência de dados aplicados na saúde. Nesse papo muito descontraído e informativo discutimos como que estão as pesquisas envolvendo o Covid-19, como que os dados estão reforçando essa luta e também como alguém pode iniciar na área de health data, com dicas desses feras que sabem tudo do assunto! Não deixe de ouvir e indicar para seus amigos da área de biologia e medicina(em Português)Ah! Você seguir o podcast do Data Hackers no SpotifyiTunesGoogle PodcastCastbox e muitas outras plataformas, inclusive no nosso site!

 

Ah rapaiz, quem nunca viu pipocar no notebook

SettingWithCopyWarning,

esse erro maldito, que não é erro, é apenas um aviso, pra deixar seu notebook com cara de amador e você com cara de b*@$a?! Acontece que o Pandas, há menos que use certas operações, ele não faz uso correto da memória de um DataFrame. Nosso co-fundador

escreveu esse post maroto pra ensinar o que raios significa esse

warning

e o que se pode fazer para nunca mais ser importunado por ele! Vou até desvirar a mesa aqui...

┬──┬◡ノ(° -°ノ)

(em Português)

 

Cientistas do mundo inteiro estão num esforço imenso para entender como que a pandemia do Coronavirus se espalha. Um

de pesquisadores do London Imperial College conseguiu aplicar vários modelos conhecidos utilizados na epidemiologia tradicional para prever o espalhamento do Covid-19 em diversos cenários. Desse estudo, a Dr. Allison Hill de Harvard criou um

pra facilitar simulações com os parâmetros levantados no estudo.

(em Inglês)

Quem não sofre com dados duplicados quando se juntam dados de bases diferentes? Uma solução incrível disponibilizada pela AWS no ultimo ano é o FindMatches, solução completa pra deduplicação de registros, mesmo quando esses registros não tem chaves em comum. A ferramenta usa Machine Learning e tem inclusive uma etapa de Labelling. E tudo serverless e sem código! (em Inglês)

Um dos assuntos mais comentados dentro das empresas que estão na crescente da democratização de dados é como facilitar a descoberta de datasets para analistas e cientistas! Nesse post sensacional, uma das equipes que mais entendem disso, a do Spotify, explica o Lexikon, ferramenta desenvolvida internamente para resolver o problema - na mesma pegada de Amundsen da Lyft, Databook do Uber e Data Portal do Airbnb. (em Inglês)

Tá achando seus notebooks pouco interativos e meio sem graça? Olha que ferramenta TOP esse BeakerX! É uma coleção de extensões pro seu Jupyter ficar muito mais produtivo: 

* Interpretador pra Scala, SQL, Clojure e mais!

* One-click publication

* Altos widgets pra time-series, plots, tabelas e forms!

Não deixe de conferir!(em inglês)

VAGAS DA SEMANA

  • Python, Scala ou Java e DBs Relacionais

  • Pipelines de dados com ferramentas open-source

  • Produtização de Machine Learning

  • Big Data com Spark, Presto e Neo4j

  • 3 anos de Experiencia

  • SQL avançado

  • Pipelines de Dados, DWs, Infraestrutura de dados

  • Mentoria e liderança

  • C++, Cloud, Airflow/Luigi, Containers e IaC

O Linkedin Learning está disponibilizando uma série de cursos bem bacanas pra quem quer iniciar na área de dados. Além dos tradicionais cursos de Excel da Karine Lago, também tem cursos de Ciência de Dados. O que indicamos é o curso introdutório dado pelo Doug Rose, da Universidade de Chicago, e conta as principais táticas de storytelling para passar informações claras e relevantes para tomada de decisão. (em Português)Outro curso da série:

Coronavirus/Covid-19 Data Viz mega pack!O blog Information is Beautiful está mantendo um mega infográfico com diversas visualizações atualizadas frequentemente com dados sobre o Covid-19. Das trajetórias de infectados por país até período de encubação em comparação com outras doenças, as visualizações são informativas e diretas ao ponto. Ótima forma de se entender como a pandemia está evoluindo. (em inglês)

PRÓXIMOS EVENTOS E MEETUPS

Nós, do Data Hackers, vamos fazer essa semana a primeira...

LIVE DO DATA HACKERS!Isso mesmo! Paulo Vasconcellos, Gabriel Lages e eu, Allan Sene, estaremos juntos para conversar livremente com vocês sobre Data Science, Data Engineering.