Zero-ETL e o futuro da Engenharia de Dados 👷‍♀️

Zero-ETL e LLM's vão mudar radicalmente

o futuro da engenharia de dados

Fala Data Hackers, preparados para mais uma segunda-feira cheia de dados?

Essa semana o destaque é um conteúdo ultra-relevante, afinal, o futuro da engenharia de dados pode impactar a vida de todos nós, certo?

A verdade é que os LLM's trouxeram uma gama de novas possibilidades em diversas áreas, como desenvolvimento de software, análise de dados, design e por que não engenharia de dados?

Para evitar maiores spoilers deixo aqui a seguinte reflexão: E se meu algoritmo fosse capaz de aprender sozinho onde encontrar a informação e realizar as transformações necessárias?

Além disso temos muitos outros assuntos legais para começar a semana:

Esse post foi feito especialmente para você, engenheiro de dados, que trabalha em camadas mais técnicas da área de dados e (até então) estava tranquilo, pensando que o ChatGPT não mudaria muito a forma com que você trabalha.

A verdade é que todas essas novidades no mundo de AI e dos LLM's (Large Language Models) já estão começando a mudar radicalmente a forma como os processos de transformação e consumo de dados são feitos.

Nesse artigo, Barr Moses CEO da Montecarlo e uma das principais referências do mundo da observabilidade e qualidade de dados, mostra de maneira simples como as abordagens em torno dos pipelines de dados vem passando por rápidas mudanças nos últimos anos, incluindo o movimento Zero ETL, e como os LLM's vão criar uma série de novas possibilidades que prometem mudar radicalmente o futuro da engenharia de dados que conhecemos hoje. (em Inglês)

Uma das principais novidades que ChatGPT vai lançar são os chamados plugins, que vão permitir que o sistema atue em muitas frentes diferentes, incluindo que ele faça seus próprios algoritmos.

Nessa Thread do Twitter, o professor de Wharton, Ethan Mollick teve acesso a primeira versão de um plugin chamado GPT Code Interpreter, subiu um CSV com dados de um problema real e pediu que o sistema fizesse uma análise completa dos dados.

O resultado foi muito impressionante, o sistema não fez apenas uma análise simples, mas plotou gráficos, fez toda a análise exploratória e ao final fez uma análise de regressão, além de utilizar códigos de qualidade em Python e fazer a correta interpretação de toda a análise.

Esse tipo de solução ainda está em fase beta e poucas pessoas tem acessos o que nos deixa ainda mais ansiosos para entender o quão robusta será essa solução e quanto o dia a dia dos profissionais de dados será impactado por este tipo de tecnologia. (em Inglês)

Após trabalhar em diversos projetos relacionados a busca semântica esse engenheiro de Machine Learning teve uma brilhante ideia de utilizar novas APIs da OpenAI para transformar 100% dos documentos da empresa que ele trabalhava em uma base de dados facilmente acessível.

O mais interessante é que no post ele mostra passo a passo como qualquer um pode fazer o mesmo, sem muita complexidade, permitindo por exemplo que você busque dentro de todas as bases de documentos da sua empresa da mesma forma que busca no google. (em Inglês)

OUTROS TÓPICOS

Uma ferramenta que ganhou popularidade nos últimos anos para gerenciar pipelines de dados é o dbt (data build tool). Embora o dbt possa fornecer benefícios significativos para gerenciamento e modelagem de dados, pode não ser a melhor ferramenta para todas as situações. Este artigo mostra os principais casos de uso do dbt para determinar se o dbt é adequado para sua organização.(em Inglês)

Se você está curioso para acompanhar as novidades do GPT-4 mas ainda não quer torrar alguns dólares nesse processo, esse post é tudo o que você precisa. Obs: Os métodos apesar de gratuitos não envolvem pirataria nem nada ilegal, podem ficar tranquilos. (em Inglês)Programação orientada a dados utilizando Python"Data-Oriented Programming" de Yehonathan Sharvit é um ótimo livro que oferece uma introdução ao conceito de programação orientada a dados (DOP) como uma alternativa à tradicional programação orientada a objetos (OOP). Embora no livro o autor ilustre seus exemplos usando JavaScript e Java, a ideia deste artigo é demonstrar as ideias em Python com exemplos práticos. (em Inglês)

Descubra como utilizar LLM's para realizar buscas semânticas nas suas próprias bases de dados em 5 passosCansado de fazer queries? E se fosse possível buscar dados com textos simples de linguagem natural, como no ChatGPT? Essa é justamente a proposta que esse post ensina em 5 passos, uma abordagem muito interessante e que deve se tornar uma tendência cada dia mais comum.(em Inglês)

Aprenda a forma correta de se fazer cargas de dados de maneira incremental e em larga escalaEste post tem como foco desmistificar as técnicas por trás das cargas incrementais de dados, compartilhando as melhores práticas, alguns casos de uso e considerações avançadas. É um conteúdo relevante tanto para quem trabalha com um volume massivo de dados, ou mesmo para quem ainda lida com pipelines mais simples no dia a dia e pretende economizar tempo e dinheiro. (em Inglês)

DICA DE VÍDEO

Essa live acabou de sair do forno e conta com o professor João Gabriel Lima e com o Data Hacker Rodrigo Teoria que vão explicar passo a passo como funciona o AutoGPT e o BabyAGI, sistemas baseados em agentes autônomos de AI. Na live você vai aprender conceitos-chave sobre Auto-GPT e BabyAGI e como desenvolver e usar seus próprios agentes autônomos, conteúdo incrível! (em Português)

VAGAS DA SEMANA

  • Conheça das técnicas e documentos para levantamento de requisitos e especificações;

  • Saiba lidar com alto volume de dados de diversas fontes diferentes;

  • Saiba implementar um pipeline completo, desde a aquisição dos dados, refinamento até a apresentação dos resultados;Realize análises exploratórias dos dados;

  • Selecione e implante técnicas e algoritmos de Machine Learning ou IA para a resolução dos problemas selecionados;

  • Utilize aprendizado de máquina supervisionado e não supervisionado para solucionar problemas;

  • Tenha uma sólida compreensão de estatística, incluindo testes e distribuições;

São Paulo - SP - Híbrido

  • Experiência avançada com as linguagens SQL, Python, Scala e Java;

  • Experiência avançada em modelagem e manipulação de grandes volumes de dados;

  • Experiência na elaboração de relatórios e análises de qualidade de dados;

  • Experiência com ferramentas de data quality (AWS Deequ, GreatExpectations);

  • Experiência em computação em nuvem (AWS, Google Cloud Platform);

  • Experiência em ferramentas de versionamento (Git);

  • Conhecimento avançado em Linux;

MEME DA SEMANA

Quero ver o ChatGPT resolver essa…Dica do Allan Sene no nosso canal do Slack

DATA VISUALIZATION DA SEMANA

Com base nos resultados recentes de um artigo que mostrou que a grande maioria das profissões que conhecemos hoje serão fortemente impactadas por modelos de linguagem e/ou modelos de processamentos de imagens a equipe do Washington post criou essa excelente visualização de dados. Vale a pena conferir! (em Inglês)

PROXIMOS EVENTOS E MEETUPS

AWS Marathon - Database & Analytics30 de Maio e 01 de junho - 100% online e gratuito

DATA+AI Summit - Databricks26 a 29 de junho - San Francisco/USA + evento online e gratuito

Big Data Brazil Experience 2023 21 de outubro - SP - Participantes do Data Hackers tem descontos pelo link

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Logo

Copyright © datahackers.com.br.Gostaria de parar de receber esses emails?Você pode atualizar suas preferências ou remover o cadastro dessa lista de emails.