Data Lakehouse e as últimas tendências em Data Engineering 👷

Como a Uber utiliza uma stack open-source para reduzir drasticamente os custos de processamento de dados

Fala, Data Hacker! Seja bem-vindo de volta a sua newsletter preferida, essa semana a news chegou na quarta-feira, mas fique tranquilo que isso só ocorreu devido ao feriado!O assunto principal de hoje é Data Engineering, mais especificamente Data Lakehouse, uma das tendências mais crescentes nessa área. Para entender mais sobre esse tema convidamos nossos parceiros do time de engenharia do Grupo Boticário para um episódio incrível do Data Hacker Podcast. O papo teve uma profundidade bem legal e contou em detalhes como a arquitetura do Grupo Boticário foi estruturada, passando por processos, gestão e tecnologia.E mais na news de hoje: Como a Uber utiliza uma stack open-source para reduzir drasticamente os custos de processamentoum guia passo a passo para entrevistas na área de Data Science; um roadmap de Machine Learning ao MLOps, dicas de eventos, vagas de emprego e muito mais.

Pesquisa de feedback da newsletter do Data Hackers

Queremos criar uma newsletter cada vez melhor para você, e para isso, seu feedback é muito importante.

e separe 2 minutinhos do seu dia para responder nossa pesquisa.

O que é um Data Lakehouse? Parece mais uma nova modinha, mas não: é uma nova forma de se construir uma plataforma de dados que facilita e democratiza o acesso a informação.Já conhecia esse conceito? Ficou curioso? Esse é o tema principal do mais recente episódio do Podcast do Data Hackers, e para esse papo convidamos algumas referências do time de Data Engineering do Grupo Boticário.

Trouxemos os mestres de Engenharia e Arquitetura de Dados para dar essa aula pra gente: Robson Mendonça (Gerente SR Engenharia de Dados), Edson Junior (Gerente de Engenharia de Dados)Marcus Bittencourt (Gerente de Arquitetura e Plataforma de Dados).

Lembrando que você pode encontrar o podcast do Data Hackers no SpotifyiTunesGoogle PodcastCastbox e muitas outras plataformas, incluindo nosso site oficial. (em Português)

Com o crescimento da Uber os dados da plataforma passaram a crescer exponencialmente chegando a se tornar uma das maiores despesas operacionais da empresa.

Diante desse cenário a equipe de Data Engineering resolveu começar um complexo projeto de redução dos custos com base em sistemas open-source.

Nesse post você consegue entender os detalhes dessa iniciativa e encontrar oportunidades de desenvolvimento de uma plataforma com melhor custo-benefício. (em Inglês)

 

Esse post não é tão novo assim, mas é um daqueles conteúdos para ser guardado com chave de ouro pois trata-se de um guia passo a passo para entrevistas de emprego em Data Science.

No total são 121 recursos disponibilizados com o objetivo de te ajudar a encontrar o emprego dos sonhos na área de dados.

Entre os recursos tem vídeos, posts, questionários, exemplos de testes técnicos e até mesmo uma análise detalhada do processo seletivo de empresas que são referência na área de dados. (em Inglês)

O Data Hacker Enzo Delcompare (sim, já temos Enzos virando Data Hackers) fez um post incrível destacando as principais funções do Pandas que todo profissional de dados deveria dominar. Além de explicar as funções, ele mostra em detalhes como e quando utilizar cada uma delas, ou seja é mais um daqueles posts imperdíveis. (em Português)

Um dos maiores desafios de empresas que escalam em um cenário de microsserviços é como garantir a qualidade dos dados e dar autonomia para as pessoas de diferentes áreas utilizar a informação no dia a dia, e no AirBnB não é diferente. Para contornar esses problemas eles combinaram processos e ferramentas e mostram alguns detalhes dessa evolução nesse post. (Obs: A maioria dos recursos criados pela área de dados do AirBnB são tecnologias open-source e estão disponíveis para você utilizar no dia a dia). (em Inglês)

Se tem uma dúvida que quase todas as pessoas que estão estudando tópicos relacionados a Machine Learning é "como resolver problemas do mundo real?", afinal o caso de estudo do Titanic é bem interessante mas o navio já afundou faz tempo... Esse post apresenta 4 passos que podem ajudar qualquer Cientista de Dados a sair da teoria e avançar em soluções práticas. (em Inglês)

Esse roadmap conta com os passos necessários para dominar os principais conceitos de MLOps. O artigo inclui dicas de conteúdos para estudar, vídeos, cursos e livros contemplando as principais tecnologias utilizadas na área. (em Inglês)

VAGAS DA SEMANA

  • Sólido conhecimento de engenharia de dados; Proficiência em linguagem SQL;

  • Sólido conhecimento de arquiteturas de big data, data warehousing, business intelligence;

  • Experiência com cloud computing, preferencialmente GCP;

  • Experiência em arquitetura e processos de cargas para DataLake;

  • Experiência em extrações de Dados via API ́s (Ex: Google, Facebook, Salesforce e etc);

  • Experiência com ferramentas de ETL, preferencialmente Data Fusion);

  • Sólido conhecimento em pipelines de ingestão de dados Streaming;

  • Conhecimento em pipelines de DataOps;

  • Forte skill de engenharia de dados e comunicação;

  • Proficiência em alguma linguagem de programação. Preferência por Python ou Java;

  • Proficiência em linguagem SQL;

  • Conhecimento em big data, data warehousing, business intelligence;

  • Experiência em arquitetura e processos de cargas para DataLake;

  • Experiência em extrações de Dados via API´s (Ex: Google, Facebook, Salesforce e etc);

  • Experiência com ferramentas de ETL (Ex. CDAP, SAP DS, Talend, Kettle, Microsoft SSIS);

  • Experiência com ferramentas de orquestração de fluxo de dados (Ex. Composer, Airflow, Luigi, Kubeflow e etc);

  • Experiência com cloud computing, preferencialmente GCP

  • Conhecimento em DataOps e esteiras de CI/CD;

50 anos de NLP no Brasil: O futuro do processamento de linguagem natural no BrasilNessa mesa redonda da USP São Carlos o tema central foi como a área de Processamento de Linguagem Natural surgiu no país e, especialmente, no ICMC, instituição considerada uma das pioneiras no ramo e um dos principais polos de pesquisas na área; como era trabalhar no segmento nos anos 90, década de seu surgimento; o que mudou ao longo dos anos; os novos desafios que surgiram; como a internet transformou a atuação de cientistas na área, etc. (Em Português)

Procurando uma aplicação de K-Means no mundo real? Ops... tem algo errado aí...

Dica do Data Hacker Igor Fernandes no nosso

É fato que a pandemia e isolamento social fez as pessoas passarem mais tempo em casa, mas você consegue imaginar quais as principais atividades feitas em casa e quanto tempo em média é gasto em cada uma delas?  (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

09 de Setembro- Evento Gratuito e 100% Online

14 de Setembro- Evento Gratuito e 100% Online

21 de Setembro- Evento Gratuito e 100% Online

22 a 24 de Setembro- Evento Gratuito e 100% Online

28 a 30 de Setembro - Evento Gratuito e 100% Online