Lições aprendidas após analisar mais de 1000 equipes de dados ✍️

E mais: Yann Lecun e Elon Musk brigam no Twitter; 10 repositórios no Github para DE's; Vazamento revela segredos do Google;

Fala, Data Hackers! Depois do feriado (pra quem emendou), bora saber o que vem rolando no mundo dos dados?

Hoje trazemos as tendências observadas por um cofundador da plataforma Synq depois de conversar com mais de mil equipes de dados em apenas dois anos. Trazemos ainda a treta que rolou na internet entre Elon Musk e o pesquisador da Meta Yann LeCun e como a briga expõe visões diferentes sobre IA, e uma lista com 10 repositórios no GitHub para dominar as principais habilidades que um Engenheiro de Dados precisa.

Confira outros destaques desta edição:

A Thoughtworks, em parceria com a comunidade Data Hackers, Mulheres em Dados e DiversiData, convida você para uma conversa sobre jornadas na área de Dados e o impacto de mulheres que constroem o futuro da tecnologia, no dia 6/6, às 18h30. O painel contará com Vanessa Anjos (Engenheira de Dados, Thoughtworks), Mariana Rufino (Analista de dados e co-fundadora da comunidade Mulheres em Dados), Victoria Fujii (Consultora em Análise de Dados, Thoughtworks) e Andressa Freires (Data Scientist Specialist na Meiuca e fundadora da DiversiData), além da mediação de Monique Femme (Head of Community Manegement da comunidade Data Hackers).

O evento é gratuito, exclusivo para mulheres e outros gêneros sub-representados, e acontece no Inovabra Habitat, em São Paulo. Os ingressos podem ser retirados neste link.

O trabalho na plataforma de confiabilidade de dados Synq levou seu cofundador Mikkel Dengsøe a interagir com mais de mil times de dados em apenas dois anos. Neste artigo, ele analisa os dados dessas conversas para chegar a conclusões sobre a atuação de times de dados que passam por tendências como o uso de data warehouses além de reportar ações e as múltiplas possibilidades de abordagens para fazer testes. (em Inglês)

O bilionário Elon Musk se envolveu em uma nova polêmica, dessa vez com o cientista líder de IA na Meta e reconhecido pesquisador Yann LeCun. Tudo começou com LeCun ironizando as vagas da empresa xAI que Musk estava divulgando no X (antigo Twitter). Musk respondeu perguntando a LeCun o que ele de fato desenvolveu nos últimos anos, no que foi respondido com um número de número de publicações científicas, das quais desdenhou.

Mais do que uma briga pessoal, a treta entre Musk e LeCun escancara duas abordagens sobre inteligência artificial. Vale se aprofundar e entender porque. (em Inglês)

A Engenharia de Dados está crescendo rapidamente, e hoje as empresas tem contratado mais engenheiros que cientistas de dados. A Engenharia de Dados requer, no entanto, domínio de containerização, infraestrutura enquanto código, orquestração de fluxo de trabalho e outras habilidades, fora proficiência em infraestrutura em nuvem e ferramentas como Databricks e Snowflakes.

Este artigo lista 10 repositórios no GitHub contendo cursos, roadmaps e outros recursos para adquirir os principais conceitos e ferramentas para trabalhar como Engenheiro de Dados. (em Inglês)

Vazamento revela segredos do algoritmo de busca do Google
A forma como o algoritmo de busca do Google funciona sempre foi um segredo muito bem guardado. Na semana passada, no entanto, vários documentos internos da big tech vazaram, revelando detalhes como os dados que o Google coleta e utiliza e até informações que que põem em xeque declarações públicas da empresa, como o uso de dados do Google Chrome na classificação de páginas, que ela sempre negou. (em Português)

Musk capta 6 bilhões de dólares para competir com o ChatGPT
A xAI, empresa fundada por Elon Musk há menos de um ano e que tem ambição de concorrer com a OpenAI, acaba de levantar US$ 6 bilhões de investimento. A companhia, que foi avaliada em US$ 18 bilhões na rodada série B, tem entre seus investidores nomes conhecidos como Sequoia Capital e Andreessen Horowitz. (em Português)

Como a Lyft vem construindo um time de Data Science de alto nível
A Lyft, empresa estadunidense voltada para o transporte urbano e pautada pela sustentabilidade, vem construindo um time de Data Science reconhecido pela sua robustez - e um dos pilares para isso é um conselho de aprendizado técnico que propõe aos membros dos times conteúdos e desafios para que eles se desenvolvam de maneira contínua. Saiba tudo em detalhe nesse artigo. (em Inglês)

A nova AI do Google vem errando muito e já virou até Meme
O Google AI Overview, ferramenta lançada recentemente com o objetivo de resumir assuntos complexos usando inteligência artificial, tem produzido resultados um tanto inesperados - e até humorísticos. Além de ter gerado memes ao recomendar que usuários comam pedras, o aplicativo afirmou que vários ex-presidentes dos EUA estudaram na universidade de Wisconsin-Madison, o que nunca ocorreu. O CEO Sundar Pichai, no entanto, segue otimista em relação ao produto. (em Inglês)

Por que toda organização precisa de uma camada semântica de dados?
Ter um conjunto de dados farto e organizado é sem dúvida um passo fundamental para uma organização que quer extrair o melhor o melhor de seus dados, mas isso, por si, não basta. Para evitar que uma série de problemas surjam, é necessário uma camada de dados para orientar o time, e este artigo explica porque. (em Inglês)

Migração de Tabelas Nativas para Tabelas Externas no BigQuery
A busca por reduzir custos e obter maior eficiência no armazenamento e no processamento de dados é contínua. Neste artigo, o Data Hacker Gustavo Santos Costa apresenta uma exploração detalhada sobre a migração de tabelas nativas para tabelas externas no Google BigQuery, mostrando diferentes alternativas e o desempenho de cada uma delas. (em Português)

O que aprendi após competir no Kaggle por um ano inteiro
O Kaggle é uma plataforma bem conhecida no universo dos dados, sendo usada por milhares de pessoas para aprender e ganhar experiência em Ciência de Dados e Machine Learning. Depois de usar o Kaggle por um ano inteiro, o engenheiro de Geremie Yeo compartilha nesse artigo as principais lições que aprendeu sobre a plataforma e as melhores formas de usála. (em Inglês)

DICA DE VÍDEO

Tanto a Amazon quanto a Google oferecem serviços de "Text to Speech" em suas plataformas de serviços na nuvem - AWS e Google Cloud, respectivamente. Mas quais as diferenças entre os serviços oferecidos pelas duas Bigtechs, e o que saber antes de escolher entre um ou outro? Neste vídeo, a cientista de dados Kizzy Terra, do canal Programação Dinâmica, compara em detalhe a forma como as duas gigantes transformam textos em áudio. (em Português)

VAGAS DA SEMANA

São Paulo-SP - Híbrido

  • Sólida formação analítica, com capacidade de criar e validar modelos analíticos para orientar a execução da equipe;

  • Comunicação eficaz com líderes de produtos, negócios e técnicos, aproveitando compensações informadas para tomar decisões;

  • Pensamento estratégico, sendo capaz de contribuir com os direcionamentos estratégicos das equipes, alavancando expertise técnica e de negócios ;

  • Experiência com projetos de experimentação de produtos;

  • Experiência com políticas de crédito (diferencial)

Remoto

  • Formação em Ciências da Computação;

  • Experiência profissional como Engenheiro de Software durante toda a carreira (não serão considerados Engenheiros de Dados, Engenheiros de Machine Learning, Cientistas de Dados, acadêmicos ou outros);

  • Experiência com Engenharia de Software em Python por pelo menos 5 anos em uma empresa voltada para produtos;

  • Experiência usando LLMs para produzir, com escrita de prompts e uso de ferramentas de IA generativa;

  • Experiência com infraestrutura AWS (diferencial)

MEME DA SEMANA

DATA VISUALIZATION DA SEMANA

Para progredirmos contra os problemas prementes que o mundo enfrenta, precisamos de ser informados pelas melhores pesquisas e dados. A proposta do site Our World in Data é tornar esse conhecimento acessível e compreensível, para capacitar aqueles que trabalham para construir um mundo melhor. São diversos dataviz disponibilizados no site, envolvendo assuntos como saúde mental, democracia e inteligência artificial. Vale conferir. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

Data + AI Summit
10 a 13 de junho - San Francisco, Califórnia, EUA

Innovators Hive
15 de junho - Belo Horizonte-MG

HackTown 2024 (Data Hackers têm 15% de desconto!)
1 de agosto - Santa Rita do Sapucaí-MG

Big Data Brazil Experience 2024
16 de novembro - São Paulo-SP

AWS Innovate
On-demand - Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?

Pode dar sua opinião sincera...

Faça Login ou Inscrever-se para participar de pesquisas.

Logo