- Data Hackers Newsletter
- Posts
- Os melhores conteúdos de Data Quality & Governance dos últimos tempos!
Os melhores conteúdos de Data Quality & Governance dos últimos tempos!
Open-Metadata Framework - um projeto para navegar no mar de dados atual
Fala, Data Hackers! Tudo ok com vocês? E com os seus dados??Um dos maiores desafios para especialistas em dados, dos Cientistas aos Engenheiros, é tratar Qualidade e Governança dos dados. Na maioria das vezes, há uma jornada grande e arduosa na organização de se construir - ou comprar - uma Data Platform, assunto que já trouxemos aqui outras vezes.Essa news é um compilado das principais referências dos últimos dias sobre Metadata, Data Quality, Platform, Governance & Discovery.Trouxemos aqui: Plataforma de dados do Hurb.com, 'O Muro' do Airbnb para Data Quality e o Open-Data Framework, iniciativa dos criadores do Databook no Uber. Bora lá?!
Construir uma plataforma de dados para organizações são tarefas muito árduas, que pouca gente fez de ponta-a-ponta ainda. Referências nacionais ainda estão se construindo e escolher as ferramentas certas, pro time certo, sem perder muito tempo e dinheiro, é um BAITA desafio.Nesse post sensacional, o Lucas Rolim, do Hurb, uma das maiores plataformas de turismo do br, conta em detalhes como construiram a Data Platform lá, passando por todos os temas importantes, como:Data Pipelines - como usaram Airflow, Dataform e Dataflow da GCP para capturar e processar um volume imenso de dados;Data Quality and Observability - como usaram o Great Expectations e Airflow pra garantir entrega de dados com qualidade;Data Discovery and Serving Section - Usando Metabase e Amundsen, fizeram um ambiente friendly e performático para democratizar os dadosImperdível para todo mundo que ta passando por essa jornada!! (em Inglês)
A mesma galera que trabalhou no Databook do Uber, uma das referências atuais de catálogo e discovery de dados, tá criando um baita projeto open-source, o
! O projeto compila diversas boas práticas e padrões, como JSON Schema para entidades-padrão, uma API de comunicação com os MPPs mais comuns, como BigQuery, Snowflake e etc, além de um modelo para gravar os grafos das entidades em bancos SQL e NoSQL.
Todo Data Engineer ou Analytics Engineer deveria ficar de olho nessa iniciativa hein! (em Inglês)
No post mais intuitivo sobre o assunto em nosso blog, o Data Hacker João Gustavo fez um guia sobre como utilizar Machine Learning para detectar fraudes em dados de uso de cartão de crédito. Com uma linguagem simples, explicando passo a passo, o post é uma oportunidade boa para quem quer aprender mais sobre o assunto e nem entende tão bem sobre ML ainda.
João disponibilizou todo o código no Github, que você pode acessar
. (em Inglês)
Groupby é uma das primeiras operações que qualquer pessoa na área de dados aprende, normalmente no SQL. Mas essa operação também está presente no Pandas e dá pra fazer muuuita coisa com ela, de forma bem fácil. Dá uma lida nesse post do Gustavo Santos no nosso blog. (Em Português)
A maior referência atual de Data Discovery e Literacy do mundo é o Airbnb, sem dúvidas. Berço do Airflow, Superset, Data Portal e Data University, agora o pessoal lá escreveu sobre o "The Wall" deles: um framework que garante que os dados disponibilizados pra toda organização esteja com a maior confiança possível. Post imperdível! (em Inglês)
O Preset, versão enterprise gerenciada do Apache Superset, fundada pelo mestre Max Beauchemin, que também criou o Apache Airflow, tá entrando em General Availability! Entrando numa zona muito competitiva, com Power BI e Tableau dominando o mercado, Preset se posiciona como uma alternativa rica em visualizações, que atende muito bem analistas de dados avançados, com sua variedade de componentes visuais. (em Ingles)
VAGAS DA SEMANA
Experiência com programação Python;
Experiência com BDs e SQL;
Experiência com Linux e Shell script; Cloud
Git, IaC
Conhecimento teórico de conceitos de Data Lake e DW;
Desenvolvimento de Software
Boas práticas de gestão de dados e cloud
SQL e Python
Exp. com event collection (Segment, Snowplow, Rudderstack etc.) é diferencial
Supletivo DH - Apache SparkMais uma iniciativa da comunidade bombando: é o Supletivo DH, do canal #data-engineering do nosso Slack. Dessa vez, Rodrigo Teoria, juntou Leo Biscassi, Gabriel Ribeiro e Nicolas Vieira pra falar da ferramenta mais importante pra processamento de Big Data do mundo: o Apache Spark! São mais de 1 e meia de conteúdo de primeira, de grátis, pra você que quer entender mais sobre esse baita framework. (Em Português)
Rapaz, se vcs soubessem o que rodam nos "canos" dos dados por aí... EU PEDIA ERA AJUDA 🙏 ! rsrsrs
Se juntar todos os animas e as bactérias num tanque, ia ter muuuito mais dos serezinhos monocelulares do que nós! Nessa linda visualização, como sempre das feitas pelo Visual Catalyst, a galera mostra como a massa viva do mundo está distribuída, inclusive no reino animal. Muito interessante e divertido, olha aí!(em Inglês)
PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]
24 de Agosto as 20:00 - Evento Gratuito e 100% Online
24 de Agosto - Evento Gratuito e 100% Online
28 a 30 de Setembro - Evento Gratuito e 100% Online