Não precisamos de Data Scientists, precisamos de Data Engineers

Nove medidas de distância para Data Science

Fala, Data Hacker. Seja bem-vinda a mais uma newsletter! Como tem sido sua percepção quanto as vagas disponíveis no mercado de dados? Estão em alta? Empresas estão em busca mais de engenheiros do que cientistas? No destaque da edição de hoje vamos trazer uma análise feita no mercado para entendermos como está essa distribuição. Vamos lá?E mais nessa edição: um tutorial completinho de Airflow 2.0; os melhores algoritmos para datasets pequenos; e como máquinas aprendem.

Mihail Eric fez uma analise sobre as posições abertas para engenheiros de dados com base em dados disponíveis no YCombinator desde 2012. Uma das coisas que ele identificou foi a grande demanda em relação a cientistas de dados, que chega a 70% de vagas a mais. Mihail aproveita sua análise para entender se skills que antes eram muito pedidas para cientistas de dados ainda estão em alta, e quais outros profissionais de dados as empresas estão buscando. (em Inglês)

Você já ouviu falar em Data Timeliness? É um conceito que visa entender quão disponível e acessível seu dado está para times poderem consumir e realizar análises. O pessoal do AirBnb desenvolveu uma ferramenta interna que avalia essa disponibilidade e criou esse post compartilhando os aprendizados que tiveram ao desenvolvê-la. (em Inglês)

 

É comum algoritmos de Machine Learning utilizarem medidas de distância em sua composição, como distância euclidiana ou similaridade de coseno. Mas, você sabia que existem muitas outras medidas que podem ser utilizadas? E que tal saber quando usá-las e, principalmente, quais são suas desvantagens? Confira esse post para saber mais! (em Inglês)

Nem todo mundo tem a sua disposição grandes volumes de dados para aplicar modelos de Machine Learning. Muitas áreas, como da Medicina ou Biologia, sofrem com a escassez de dados. Nesse post do Data Cowboys, você pode ver um comparativo de diferentes algoritmos de classificação aplicados a um pequeno dataset de 108 amostras. (em Inglês)

O Apache Airflow 2.0 está aí e com muitas novidades, mas não se preocupe caso não tenha utilizado ele ainda. Nesse post oficial da ferramenta, você irá aprender todos os conceitos básicos que a cercam, como o que são DAGs, operadores, sensores, XCom, e muito mais. (em Inglês)

Muitas empresas estão começando suas iniciativas de Data Platform, seja criando catalogo de dados, data lakes ou projetos de governança. Mas, com o que se parece uma plataforma de dados em 2021? Nesse post do Towards Data Science, você irá conhecer todos os seus componentes, além de dicas de ferramentas para atender cada tópico dessa gigante arquitetura. (em Inglês)

VAGAS DA SEMANA

  • Exp. como Analista de Dados ou negócios;

  • SQL;

  • Python, R, ou Scala;

  • Familiaridade com ferramentas de BI

  • Ensino superior completo;

  • Python;

  • Jupyter Notebook;

  • Machine Learning;

Machine Learning ExplicadoO canal Ciência Todo Dia do Pedro Loos lançou um vídeo bem legal explicando a origem da Inteligência Artificial e como Machine Learning funciona. Quem quiser conhecer uma explicação bem didática, vale muito a pena conferir esse vídeo. (em Português)

Espera, quer dizer que eu não vou ganhar R$ 23 mil por mês depois desse curso de 3 meses!?

Internação hospitalar em Israel em queda em idosos vacinadosA vis dessa semana é uma dica do Marlesson Santana no nosso Slack. Uma imagem que esperamos em breve poder visualizar aqui no Brasil: a curva de internação em idosos vacinados e com mais de 60 anos está em grande queda, chegando a níveis menores que em outros grupos mais jovens. Enquanto esse dia não chega, não esqueça de se cuidar e atender as normas de segurança, Data Hacker. :)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

03 de Março às 20h - Gratuito

30 de Março a 01 de Abril de 2021 -  Evento Pago e 100% Online

05 a 11 de Abril - Gratuito