Os melhores conteúdos de Data Quality & Governance dos últimos tempos!

Open-Metadata Framework - um projeto para navegar no mar de dados atual

Fala, Data Hackers! Tudo ok com vocês? E com os seus dados??Um dos maiores desafios para especialistas em dados, dos Cientistas aos Engenheiros, é tratar Qualidade e Governança dos dados. Na maioria das vezes, há uma jornada grande e arduosa na organização de se construir - ou comprar - uma Data Platform, assunto que já trouxemos aqui outras vezes.Essa news é um compilado das principais referências dos últimos dias sobre Metadata, Data Quality, Platform, Governance & Discovery.Trouxemos aqui: Plataforma de dados do Hurb.com, 'O Muro' do Airbnb para Data Quality e o Open-Data Framework, iniciativa dos criadores do Databook no Uber. Bora lá?!

Construir uma plataforma de dados para organizações são tarefas muito árduas, que pouca gente fez de ponta-a-ponta ainda. Referências nacionais ainda estão se construindo e escolher as ferramentas certas, pro time certo, sem perder muito tempo e dinheiro, é um BAITA desafio.Nesse post sensacional, o Lucas Rolim, do Hurb, uma das maiores plataformas de turismo do br, conta em detalhes como construiram a Data Platform lá, passando por todos os temas importantes, como:Data Pipelines - como usaram Airflow, Dataform e Dataflow da GCP para capturar e processar um volume imenso de dados;Data Quality and Observability - como usaram o Great Expectations e Airflow pra garantir entrega de dados com qualidade;Data Discovery and Serving Section - Usando Metabase e Amundsen, fizeram um ambiente friendly e performático para democratizar os dadosImperdível para todo mundo que ta passando por essa jornada!! (em Inglês)

A mesma galera que trabalhou no Databook do Uber, uma das referências atuais de catálogo e discovery de dados, tá criando um baita projeto open-source, o

! O projeto compila diversas boas práticas e padrões, como JSON Schema para entidades-padrão, uma API de comunicação com os MPPs mais comuns, como BigQuery, Snowflake e etc, além de um modelo para gravar os grafos das entidades em bancos SQL e NoSQL.

Todo Data Engineer ou Analytics Engineer deveria ficar de olho nessa iniciativa hein! (em Inglês)

 

No post mais intuitivo sobre o assunto em nosso blog, o Data Hacker João Gustavo fez um guia sobre como utilizar Machine Learning para detectar fraudes em dados de uso de cartão de crédito. Com uma linguagem simples, explicando passo a passo, o post é uma oportunidade boa para quem quer aprender mais sobre o assunto e nem entende tão bem sobre ML ainda.

João disponibilizou todo o código no Github, que você pode acessar

. (em Inglês)

Groupby é uma das primeiras operações que qualquer pessoa na área de dados aprende, normalmente no SQL. Mas essa operação também está presente no Pandas e dá pra fazer muuuita coisa com ela, de forma bem fácil. Dá uma lida nesse post do Gustavo Santos no nosso blog. (Em Português)

A maior referência atual de Data Discovery e Literacy do mundo é o Airbnb, sem dúvidas. Berço do Airflow, Superset, Data Portal e Data University, agora o pessoal lá escreveu sobre o "The Wall" deles: um framework que garante que os dados disponibilizados pra toda organização esteja com a maior confiança possível. Post imperdível! (em Inglês)

O Preset, versão enterprise gerenciada do Apache Superset, fundada pelo mestre Max Beauchemin, que também criou o Apache Airflow, tá entrando em General Availability! Entrando numa zona muito competitiva, com Power BI e Tableau dominando o mercado, Preset se posiciona como uma alternativa rica em visualizações, que atende muito bem analistas de dados avançados, com sua variedade de componentes visuais. (em Ingles)

VAGAS DA SEMANA

  • Experiência com programação Python;

  • Experiência com BDs e SQL;

  • Experiência com Linux e Shell script; Cloud 

  • Git, IaC

  • Conhecimento teórico de conceitos de Data Lake e DW;

  • Desenvolvimento de Software

  • Boas práticas de gestão de dados e cloud

  • SQL e Python

  • Exp. com event collection (Segment, Snowplow, Rudderstack etc.) é diferencial

Supletivo DH - Apache SparkMais uma iniciativa da comunidade bombando: é o Supletivo DH, do canal #data-engineering do nosso Slack. Dessa vez, Rodrigo Teoria, juntou Leo Biscassi, Gabriel Ribeiro e Nicolas Vieira pra falar da ferramenta mais importante pra processamento de Big Data do mundo: o Apache Spark! São mais de 1 e meia de conteúdo de primeira, de grátis, pra você que quer entender mais sobre esse baita framework. (Em Português)

Rapaz, se vcs soubessem o que rodam nos "canos" dos dados por aí... EU PEDIA ERA AJUDA 🙏 ! rsrsrs 

Se juntar todos os animas e as bactérias num tanque, ia ter muuuito mais dos serezinhos monocelulares do que nós! Nessa linda visualização, como sempre das feitas pelo Visual Catalyst, a galera mostra como a massa viva do mundo está distribuída, inclusive no reino animal. Muito interessante e divertido, olha aí!(em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

24 de Agosto as 20:00 - Evento Gratuito e 100% Online

24 de Agosto - Evento Gratuito e 100% Online

28 a 30 de Setembro - Evento Gratuito e 100% Online