Data Hackers Newsletter
Posts
Os melhores conteúdos de Data Quality & Governance dos últimos tempos!

Os melhores conteúdos de Data Quality & Governance dos últimos tempos!

Open-Metadata Framework - um projeto para navegar no mar de dados atual

Data Hackers
August 23, 2021 • Tempo de leitura estimado: 8 minutos

Fala, Data Hackers! Tudo ok com vocês? E com os seus dados??Um dos maiores desafios para especialistas em dados, dos Cientistas aos Engenheiros, é tratar Qualidade e Governança dos dados. Na maioria das vezes, há uma jornada grande e arduosa na organização de se construir - ou comprar - uma Data Platform, assunto que já trouxemos aqui outras vezes.Essa news é um compilado das principais referências dos últimos dias sobre Metadata, Data Quality, Platform, Governance & Discovery.Trouxemos aqui: Plataforma de dados do Hurb.com, 'O Muro' do Airbnb para Data Quality e o Open-Data Framework, iniciativa dos criadores do Databook no Uber. Bora lá?!

A Arquitetura da Plataforma de Dados do Hurb.com

Construir uma plataforma de dados para organizações são tarefas muito árduas, que pouca gente fez de ponta-a-ponta ainda. Referências nacionais ainda estão se construindo e escolher as ferramentas certas, pro time certo, sem perder muito tempo e dinheiro, é um BAITA desafio.Nesse post sensacional, o Lucas Rolim, do Hurb, uma das maiores plataformas de turismo do br, conta em detalhes como construiram a Data Platform lá, passando por todos os temas importantes, como:Data Pipelines - como usaram Airflow, Dataform e Dataflow da GCP para capturar e processar um volume imenso de dados;Data Quality and Observability - como usaram o Great Expectations e Airflow pra garantir entrega de dados com qualidade;Data Discovery and Serving Section - Usando Metabase e Amundsen, fizeram um ambiente friendly e performático para democratizar os dadosImperdível para todo mundo que ta passando por essa jornada!! (em Inglês)

Open-Metadata Framework - um projeto para navegar no mar de dados atual

A mesma galera que trabalhou no Databook do Uber, uma das referências atuais de catálogo e discovery de dados, tá criando um baita projeto open-source, o

Open Metadata

! O projeto compila diversas boas práticas e padrões, como JSON Schema para entidades-padrão, uma API de comunicação com os MPPs mais comuns, como BigQuery, Snowflake e etc, além de um modelo para gravar os grafos das entidades em bancos SQL e NoSQL.

Todo Data Engineer ou Analytics Engineer deveria ficar de olho nessa iniciativa hein! (em Inglês)

Detectando Fraudes em cartão de crédito com Machine Learning

No post mais intuitivo sobre o assunto em nosso blog, o Data Hacker João Gustavo fez um guia sobre como utilizar Machine Learning para detectar fraudes em dados de uso de cartão de crédito. Com uma linguagem simples, explicando passo a passo, o post é uma oportunidade boa para quem quer aprender mais sobre o assunto e nem entende tão bem sobre ML ainda.

João disponibilizou todo o código no Github, que você pode acessar

por aqui

. (em Inglês)

8 coisas que você não sabia sobre o groupby do Pandas

Groupby é uma das primeiras operações que qualquer pessoa na área de dados aprende, normalmente no SQL. Mas essa operação também está presente no Pandas e dá pra fazer muuuita coisa com ela, de forma bem fácil. Dá uma lida nesse post do Gustavo Santos no nosso blog. (Em Português)

O Muro de Qualidade dos Dados do Airbnb

A maior referência atual de Data Discovery e Literacy do mundo é o Airbnb, sem dúvidas. Berço do Airflow, Superset, Data Portal e Data University, agora o pessoal lá escreveu sobre o "The Wall" deles: um framework que garante que os dados disponibilizados pra toda organização esteja com a maior confiança possível. Post imperdível! (em Inglês)

Preset, versão enterprise do Apache Superset, entra em General Availability

O Preset, versão enterprise gerenciada do Apache Superset, fundada pelo mestre Max Beauchemin, que também criou o Apache Airflow, tá entrando em General Availability! Entrando numa zona muito competitiva, com Power BI e Tableau dominando o mercado, Preset se posiciona como uma alternativa rica em visualizações, que atende muito bem analistas de dados avançados, com sua variedade de componentes visuais. (em Ingles)

VAGAS DA SEMANA

Data Engineer Pleno - DataSprints

Experiência com programação Python;
Experiência com BDs e SQL;
Experiência com Linux e Shell script; Cloud
Git, IaC
Conhecimento teórico de conceitos de Data Lake e DW;

Data Engineer - OneFootball

Desenvolvimento de Software
Boas práticas de gestão de dados e cloud
SQL e Python
Exp. com event collection (Segment, Snowplow, Rudderstack etc.) é diferencial

Supletivo DH - Apache SparkMais uma iniciativa da comunidade bombando: é o Supletivo DH, do canal #data-engineering do nosso Slack. Dessa vez, Rodrigo Teoria, juntou Leo Biscassi, Gabriel Ribeiro e Nicolas Vieira pra falar da ferramenta mais importante pra processamento de Big Data do mundo: o Apache Spark! São mais de 1 e meia de conteúdo de primeira, de grátis, pra você que quer entender mais sobre esse baita framework. (Em Português)

Rapaz, se vcs soubessem o que rodam nos "canos" dos dados por aí... EU PEDIA ERA AJUDA 🙏 ! rsrsrs

Toda a biomassa do mundo em um gráfico

Se juntar todos os animas e as bactérias num tanque, ia ter muuuito mais dos serezinhos monocelulares do que nós! Nessa linda visualização, como sempre das feitas pelo Visual Catalyst, a galera mostra como a massa viva do mundo está distribuída, inclusive no reino animal. Muito interessante e divertido, olha aí!(em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

24 de Agosto as 20:00 - Evento Gratuito e 100% Online

Live Demo - Denodo Data Platform

24 de Agosto - Evento Gratuito e 100% Online

DataOps Summit 2021

28 a 30 de Setembro - Evento Gratuito e 100% Online