Adeus Big Data, já vai tarde... 💀

O que fazer quando experimentos geram resultados não intuitivos? Datawarehouses x Datalakes x Datalakehouses: Desmitificando os conceitos por trás da modelagem e arquitetura de dados moderna

Fala Data Hackers, preparados para mais uma semana repleta de conteúdos do mundo dos dados?Hoje o tema principal da newsletter se trata de uma entrevista polêmica dada pelo Andrew Ng uma das maiores referências do mundo dos dados. Na discussão um dos principais pontos citados por ele é que chegou a hora dos conceitos por trás do "Big Data" darem lugar para novas abordagens como a "smart-sized data-centric data”.Além disso temos outros tópicos para atualizar sua semana:

Sim, é exatamente isso que você está lendo, sem clickbait. Chegou a hora do "Big Data" morrer, e quem está falando isso não somos nós, mas sim Andrew Ng uma das principais referências da área de dados no mundo nessa entrevista que concedeu a IEEE Spectrum.Mas calma, antes de se desesperar e jogar fora toda a hype que você viu nos últimos anos em torno de Big Data, leia a entrevista e entenda que o que o Andrew Ng diz faz muito sentido, chegou a hora do conceito "Big Data" dar lugar a soluções onde os dados são centrados no problema a ser resolvido, e otimizados para aquele fim, com o foco em qualidade da informação e não simplesmente uma quantidade massiva de dados armazenados a qualquer custo.  (em Inglês)

Num mundo onde os produtos digitais estão cada vez mais populares, uma habilidade essencial para os profissionais de dados é o entendimento de API's. Além de saber como consumir dados de API's é muito importante saber como criar uma API e como entregar dados ou resultados do modelo através de uma API.

Pensando nisso o Data Hacker Matheus Vasconcellos fez um post mostrando o passo a passo para criar uma API do zero em Python utilizando o FastAPI. Vale a pena conferir!

(em Português)

 

No mais novo vídeo do canal do Data Hackers no Youtube o Paulo Vasconcellos vai contar, em pouco mais de 5 minutos, qual a pergunta mais frequente em processos seletivos de Data Science e vai te ensinar como responder essa pergunta para aumentar suas chances de passar nos processos. 

(em português)

O MLflow vem se consolidando como uma das plataformas mais populares para fazer o gerenciamento de modelos de Machine Learning e nesse artigo você vai entender o passo a passo para começar a utiliza-la. (em Inglês)

Pense no seguinte cenário, você planeja um experimento, tentando comprovar uma hipótese que você acredita, e o resultado final é totalmente diferente do que você esperava. O que fazer? Abandonar suas hipóteses? Deitar em posição fetal e começar a chorar? Aceitar o resultado e partir para outro experimento?

Bom... Esse artigo é justamente sobre isso, e apresenta diversas formas de validar se o seu teste não sofreu algum tipo de viés, leitura bem interessante para todo profissional de dados.  (em Português)

Nessa série de 5 posts são apresentados os conceitos por trás de Datalakes, Datawarehouses e Datalakehouses, quando utilizar cada um desses conceitos, as tecnologias por trás e como modelar os dados em cada caso. Esses artigos são verdadeiros guias para quem está entrando de cabeça no mundo dos dados ou quem já atua na área e precisa reforçar esses importantes conceitos. (Em Inglês)

Já ouviu falar da World Data League? Trata-se de um projeto sem fins lucrativos bem interessante que tem como objetivo reunir as mentes mais brilhantes da área de dados para juntos desenvolverem soluções de impacto social para o mundo.A boa notícia é que as inscrições para quem deseja fazer parte dessa iniciativa estão abertas até o dia 14/02! 

VAGAS DA SEMANA

  • Sólidas habilidades em análise de dados;

  • Experiência comprovada em data management e/ou data governance;

  • Sólidas habilidades de negociação e comunicação interpessoal;

  • Experiência em atração de profissionais, desenvolvimento e mentoria de equipes

  • Inglês fluente;

  • Experiência com programação (preferencialmente python/R/C#);

  • Testes unitários e integrados e versionamento de código (git);

  • Conhecimento em SQL e banco de dados relacionais, não relacionais e analíticos;

  • Conhecer/Ter experiência com ferramentas para processamento de dados e ETL’s (airflow, flink, spark, dask, etc);

Documentário sobre como as filas da Disney funcionam e como isso se relaciona com Data Science"Ninguém gosta de filas" essa frase é a mais pura verdade, filas são um grande problema em qualquer lugar do mundo, mas na Disney esse problema é ainda mais complexo. Ao longo dos anos a rede de parques temáticos tem investido em diversos estudos e tentado diferentes soluções para minimizar o efeito das filas (ou lucrar com elas). O documentário é muito interessante e uma forma de ver como os dados estão por trás de tudo a nossa volta. (em Inglês)

Para mim o "date perfeito" é o "YYYY/MM/DD", pois assim já facilita a ordenação... 

O dataviz da semana é sobre um assunto muito interessante, a corrida espacial. Nessa análise feita pelo time da Visual Capitalist, eles exploraram o quanto os custos de lançamento de foguetes vem caindo exponencialmente no período recente, impulsionado principalmente pelas inovações criadas pela SpaceX. (em Inglês)

Analytics Engineering Meetup - Scalando o Nubank15 de Fevereiro - 19:00 - Evento Gratuito e 100% OnlineLet's Data Podcast #018 - Mario Filho16 de Fevereiro - 20:00 - Evento Gratuito e 100% OnlineState of Data Mesh 202223 de Fevereiro - Evento Gratuito e 100% OnlineData + AI Summit27 a 30 de Junho - Evento Gratuito e 100% Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso

.