ETL, ELT ou EL(T)? Descubra qual o futuro da Engenharia de Dados! 👷🔨

Com que cor eu vou votar? Utilizando técnicas de Data Science antes de escolher o próximo look

Fala Data Hackers! O ano já está acabando e a vacina ainda não chegou... O jeito é tentar ficar em casa e continuar aguardando ansiosamente esse momento!Na newsletter de hoje decidimos falar sobre EL(T) uma técnica que promete ser um dos avanços para a área de Engenharia de Dados. Além disso vamos falar de um assunto que está muito em alta, o Xadrez! Sim, depois de assistir a série na Netflix "O Gambito da Rainha" aposto que você ficou com vontade de entender melhor como esse jogo funciona, e vamos mostrar que você pode usar ferramentas de Data Science para aprimorar seus conhecimentos em Xadrez. Além disso vamos falar de investimentos e aquisições na área de dados, tendências em DataOps e ao final um meme polêmico!Prontos para começar mais uma semana?

Nos primórdios da área de Business Intelligence os ETL's (Extract > Transform > Load) eram a única saída para transformar o processamento de dados transacionais (OTLP) em dados analíticos (OLAP), porém com o aumento expressivo do volume de dados, avanço das técnicas de processamento distribuído + cloud e o surgimento de tecnologias de banco de dados NoSQL a área de Engenharia de Dados precisou se adaptar para evoluir, isso levou ao surgimento de novas técnicas, frameworks e ferramentas relacionadas a arquitetura de dados.Uma dessas técnicas que ganhou muita popularidade é o ELT (que de uma forma bem resumida, inverte as etapas de carga e transformação dos dados) possibilitando a construção de Datalakes trazendo mais agilidade e autonomia para as equipes que precisam analisar os dados.Porém a tecnologia continua avançando e as técnicas de ELT ainda não conseguiram solucionar todos os problemas relacionados a integração de dados e diante desse cenário vem surgindo uma evolução desse conceito o chamado EL(T). Esse post apresenta esse conceito e mostra como o EL(T) vai se consolidar como uma das técnicas com as quais a Engenharia de Dados vai evoluir. (em Inglês)

O Data Hacker Adauto Braz fez mais um post muito interessante onde aplica técnicas de DS no seu dia a dia. Dessa vez o momento escolhido foram as eleições 2020, mais especificamente a escolha da cor da camisa que ele iria vestir na hora do voto. 

De uma forma bem descontraída, Adauto estudou as cores utilizadas pelos partidos políticos brasileiros e com o auxilio de técnicas de Data Science e muito Dataviz criou uma série de análises para ajudar em sua escolha.

e mostra várias ideias legais de análises que podem ser utilizadas em outros contextos. (em Português)

 

Se você vive no planeta terra e tem acesso a internet certamente já ouviu falar da série da Netflix - 

The Queen's Gambit (O gambito da Rainha) - essa série além de ter se tornado muito popular, está ajudando a aumentar a popularidade do Xadrez, desde o início do sucesso da série as buscas e vendas de produtos relacionados ao jogo dispararam. E na área de Data Science não poderia ser diferente. 

Se você gostou da série e ficou com vontade de aprimorar suas técnicas no Xadrez existem alguns recursos e libs que podem te ajudar, no Python a lib 

e no R o pacote

permitem que você associe técnicas de Data Science ao jogo de Xadrez e gere até mesmo um tabuleiro. Além disso existem recursos avançados incluindo o uso de

para aumentar a performance. Que tal usar essa vantagem nas próximas partidas? (em Português)

Essa semana aconteceram duas movimentações importantes relacionadas a aquisições e investimentos que envolvem á area de dados e decidimos trazer aqui na newsletter.

Dataform é uma startup britânica que desenvolve "sistemas operacionais" para Data Warehouses e acaba de ser adquirida por ninguém menos que a Google. A plataforma vai se tornar mais um recurso da Google Cloud. (em Inglês)

A plataforma de Feature Store para Machine Learning Tecton acabou se receber sua segunda rodada de investimentos, a rodada foi liderada pelos fundos Sequoia Capital e  Andreessen Horowitz. (em Inglês)

Eu sou completamente adepto a bootcamps, acredito que é a melhor maneira para obter conhecimentos rápidos e colocar a mão na massa, porém tenho que admitir que devido ao formato e ao curto tempo de duração muitas vezes o ensino de algumas técnicas importantes são deixadas de lado. Nesse post foram selecionada 10 técnicas em Python que são muito importantes para qualquer profissional da área de dados e muitas vezes são ignoradas em bootcamps. (em Inglês)

DataOps é um assunto que está cada vez mais em alta (se você não sabe do que se trata comece pelo nosso

). Com o avanço dos modelos de ML em produção é bem provável que esse tema continuará em alta por muito tempo, e em 2021

são as maiores tendências em DataOps. (em Inglês)

Você já conhece o Snowflake? Essa plataforma de cloud tem o foco na gestão dos dados e tem crescido num ritmo muito acelerado, chegando a um dos maiores IPOs do mundo em 2020.

a plataforma é explicada passo a passo, utilizando para isso a versão trial, uma forma bem interessante de entender na prática como ela funciona. (em Inglês)

O Data Hacker Douglas Trajano resolveu desenvolver um projeto open source que promete facilitar a vida de quem desenvolve chatbots, o Anallyticabot é uma aplicação web que aplica técnicas de data science e advanced analytics para ajudar você no desenvolvimento e melhoria do seu chatbot utilizando IBM Watson. (em Português)

VAGAS DA SEMANA

  • SQL avançado;

  • Ferramentas de ingestão de dados (preferencialmente NIFI);

  • Python ou outra linguagem de programação (SCALA, JAVA);

  • Processamento paralelo e distribuído - MPP (Spark);

  • Data Streaming;

  • Limpeza e tratamento de dados;

  • Modelagem de dados;

  • Conhecimento em Data Lake e computação em nuvem, preferencialmente GCP;

  • Formação em Estatística, Matemática, Engenharia Elétrica ou demais Engenharias, Ciência da Computação, ou áreas correlatas;

  • Conhecimento em Cloud (AWS ou Google ou Azure) e containers;

  • Conhecimento em bancos de dados relacionais/multidimensionais e não relacionais (Mongo, Postgres, Big Query etc);

  • Phyton e R;

Afinal, qual é a real diferença entre modelos supervisionados e não supervisionados?Em mais um vídeo incrível Cassie Kozykrov, Chief Decision Scientist no Google resolveu falar sobre um assunto que é dúvida para muitos profissionais de dados. Afinal, qual a verdadeira diferença entre modelos supervisionados e não supervisionados, descubra em menos de 3 minutos nesse vídeo. (em Inglês).

"...Adeus velhos amigos, vou sentir saudades..."Quem aí concorda? Que a treta comece! kkkkkkkkkkDica do Data Hacker Matheus Pussaignolli.

Entendendo o alto índice de abstenções das eleições 2020O Data Hacker Daniel Marcelino publicou uma série de visualizações de dados incríveis tentando entender melhor o comportamento das abstenções dos eleitores nas eleições de 2020, os dados vem desse artigo do jota.info e são bem interessantes. (em Português)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

16 de  Dezembro de 2020 - 19:00 - Evento online gratuito

17 de  Dezembro de 2020 - 19:00 - Evento online gratuito