Data Hackers Newsletter
Posts
A era da AI finalmente chegou aos iPhones... E a primeira impressão já foi incrível e polêmica 🔥

A era da AI finalmente chegou aos iPhones... E a primeira impressão já foi incrível e polêmica 🔥

E mais: Como lidar com relatórios lentos no Looker Studio; 10 dicas para quem quer implementar o Data Mesh de forma eficiente

Gabriel Lages
June 17, 2024 • Tempo de leitura estimado: 16 minutos

Fala, Data Hackers! E aí, bora abrir mais uma semana se informando do que tem rolado no mundo dos dados? E tem rolado muuuita coisa…

O destaque fica por conta do assunto do momento: o lançamento da IA da Apple, que já chegou com polêmica e provocando reações das mais variadas. Trazemos ainda uma lista com 10 dicas para implementação de Data Mesh segundo quem já tem anos de experiência no assunto.

Confira outros destaques desta edição:

Vagas Afirmativas - Thoughtworks

A Thoughtworks é apaixonada por revolucionar a indústria de tecnologia, amplificar a transformação social e defender um futuro tecnológico mais justo. Por isso, estão sempre buscando talentos diversos para fazerem parte da sua comunidade de Thoughtworkers.

Se você se identifica com um dos perfis abaixo e busca um ambiente de trabalho inclusivo, onde você pode fazer a diferença, esta é a sua chance !! Confira as vagas abertas e afirmativas para a área de Dados & IA:

Junte-se para construir um futuro com a Thoughtworks!

Data Visualization & Data Storytelling -
Data Hackers Podcast #87

Para explorar técnicas poderosas de como transformar conjuntos de dados complexos em histórias envolventes e insights assertivos, convidamos direto de Barcelona Letícia Pozza, que teve experiência na implementação de iniciativas de análise de dados no Brasil e em pesquisas apoiadas pela Fundação Bill & Melinda Gates, liderou equipes na Cappra Data Institute e, atualmente, é CEO da Odd Studio, da qual foi cofundadora.

Ela conta pra gente sua experiência em adentrar em um mundo onde dados se convertem em narrativas para desvendar os mistérios da Visualização e Storytelling de Dados e fala sobre seu intuito de trazer métodos de design para a Ciência de Dados, inclusive auxiliando empresas no uso de dados para a concepção e criação de produtos.

A era da IA chegou aos Iphones chamando a atenção e preocupando muita gente

A Apple durante muito tempo se manteu discreta em relação à hype da IA generativa, sem entrar de sola nessa onda, mas nos últimos dias isso mudou: na última semana, a big tech finalmente anunciou sua IA, batizada de Apple Intelligence. Não é um app em si, mas sim uma série de recursos incorporados aos apps da companhia. Este artigo lista algumas das principais reações, que foram bem variadas, de gente avaliando o lançamento como decepcionante a pessoas considerando o melhor exemplo de IA até agora. O lançamento levou até o Elon Musk a ameaçar banir iPhones e Macs em suas empresas. Caramba… (em Inglês)

Usando LLMs para detectar o uso de linguagem tóxica

Neste artigo o Data Hacker Fellipe Gomes apresenta, passo a passo, o uso combinado do modelo de IA Gemma (do Google) com o framework LangChain para detectar o uso de linguagem tóxica nas redes sociais. Conteúdo útil para quem quer aprender sobre engenharia de prompts para a execução de uma determinada tarefa, e que permite visualizar como o texto de entrada afeta a saída do modelo. (em Português)

10 dicas para quem quer implementar o Data Mesh de forma eficiente

Implementar o Data Mesh pode trazer uma série de vantagens às organizações, como a facilidade no acesso e uso dos dados e melhorias em relação a governança e segurança. Mas há aprendizados que só vêm com a experiência, e sendo o Data Mesh algo que passa por muitos níveis de organização, é válido se informar antes de começar para evitar retrabalho.

Nossos parceiros da Thoughtworks, usam Data Mesh desde 2019 e, neste artigo, eles listam 10 dicas do que aprenderam nesse tempo, descrevendo os antipadrões que observam por aí e que abordagens recomendam em seu lugar. (em Inglês)

Meetup Tech and Cheers - Ambev Tech

A Ambev Tech renovou sua parceria com a comunidade Data Hackers!

E pra comemorar, que tal subir ao palco do "Meetup Tech and Cheers" no mês de julho em um bate-papo incrível com o time de especialistas da Ambev Tech?

Aproveite a chance de compartilhar seu conhecimento em um painel ao lado de profissionais da Ambev Tech: para se candidatar, escolha um dos temas do evento que queira abordar e preencha o formulário até o dia 24 de junho.

A pessoa selecionada será divulgada no dia 26 de junho.

Se inscreva e compartilhe!

Como lidar com relatórios lentos no Looker Studio
Muitas vezes, os painéis do Looker Studio (Data Studio) demoram a carregar por buscarem um grande volume de dados diretamente na fonte original. Mas não precisa ser sempre assim: este artigo apresenta formas de agilizar o carregamento dos painéis, tanto usando o conector Extract Data do Google quanto usando armazenamento Supermetrics. (em Português)

Entendendo o que é a Interpretabilidade em Modelos de Machine Learning
Um fato curioso sobre os LLMs é que quase ninguém como é o funcionamento interno dos modelos. Mas isso está começando a mudar: nas big techs há times voltados para a chamada interpretabilidade que se seforçam pra mudar isso, levando mais gente a entender os modelos, o que tornaria possível planejar um futuro mais seguro para a IA. Neste vídeo, os profissionais da Anthropic apresentam o conceito de interpretabilidade e como ela rege seu trabalho. (em Inglês)

Como utilizar análise de dados para medir o impacto de mudanças em produtos digitais
Medir o impacto que uma determinada mudança em um produto digital tem em boas conversões não é uma tarefa fácil, afinal um maior uso do recurso alterado não necessariamente implica em taxas de conversão mais altas, mais conversões não implicam em maior retenção e uma maior retenção também não significa necessariamente um aumento da receita. É preciso entender as relações causais entre as métricas e as ações do usuário. Neste post, Tom Laufer, CEO e cofundador da empresa estadunidense Loops, compartilha boas práticas para medir a contribuição de um dado feature para os KPIs. (em Inglês)

The Rise of Medium Code: a era dos Analytics Engineers está só começando
Hoje se desenvolve mais software que nunca, e com isso uma nova classe de profissionais de software tem surgido: eles permitem que um número maior de pessoas escreva mais códigos de produção, de forma mais produtiva, por meio de interfaces mais humanas, e estão presentes em domínios como dados, infraestrutura, front-end. Neste artigo, conheça mais sobre a chamada categoria de código médio. (em Inglês)

Curso gratuito: AI Agents in LangGraph
LangGraph é uma biblioteca desenvolvida como uma extensão para o framework open source LangChain que possibilita a criação de agentes dinâmicos e interativos permitindo, por exemplo, que componentes atores se comuniquem e trabalhem juntos em um loop. Este curso gratuito ensina a desenvolver um agente do zero usando Python e um LLM e então reconstruí-lo usando o LandGraph, aprendendo sobre os componentes da biblioteca e como combiná-los. (em Inglês)

Perforance superior e custo 75% mais barato que o Pinecone: conheça o pgvectorscale, extensão open source para o banco de dados PostgreSQL
Quando vão criar um aplicativo de IA, muitos desenvolvedores se perguntam se devem usar um banco de dados vetorial especializado, como o Pinecone, ou um de propósito mais geral. E durante certo tempo muitos optaram por bancos de dados especializados por eles oferecerem melhor performance e escalabilidade. Agora, no entanto, a Timescale desnvolveu o pgvectorscale, extensão open source para o banco de dados PostgreSQL que promete entregar uma performance superior à do Pinecone custando 75% mais barato. (em Inglês)

DICA DE LIVRO

Causal Inference for Data Science

A inferência causal é um clássico no estudo das relações de causa e efeito, e pode ser útil em uma série de contextos: quando conhecemos a causa de um evento, afinal, podemos alterar seu resultado. Este livro propõe uma introdução acessível à inferência causal mostrando como usar estatística e machine learning para determinar causalidade e estimar resultados, o que passa por tópicos como modelagem usando gráficos causais e a determinação do número suficiente de variáveis para fazer uma determinada análise. (em Inglês)

VAGAS DA SEMANA

Data Scientist -
Arco Educação

Remoto

Graduação em Exatas (Estatística, Engenharia, Economia, Ciência da Computação ou áreas afins);
Habilidade em gerenciar múltiplas frentes de trabalho, com conhecimento em fluxos de modelagem de dados;
Competência em linguagens e ferramentas como SQL e Python, além de experiência em ambientes cloud como AWS ou GCP.;
Entendimento técnico e teórico dos modelos mais utilizados de Machine Learning;
Capacidade de transformar desafios de negócios em soluções orientadas por dados.

Data Scientist (Foco em IA) - Hotmart

Belo Horizonte-MG - Híbrido

Organização, processamento, modelagem e validação de grandes volumes de dados estruturados, para realização de análises e treinamento de modelos de IA;
Realização de análises, desenvolvimento e treinamento de modelos de IA dentro de projetos de médio porte e média complexidade;
Interação com clientes internos para levantar suas necessidades, e com a equipe de cientistas para identificação da solução mais adequada para cada problema.
Criação de códigos eficientes e fáceis de manter.

MEME DA SEMANA

DATA VISUALIZATION DA SEMANA

O custo para treinar modelos de IA ao longo do tempo

Com o crescimento da capacidade da IA generativa, os gastos necessários para treinar os modelos têm crescido de forma assustadora, o que tem levado as empresas a repensar a forma como são feitos os treinamentos e adotar estratégias para reduzir os custos. Com base no Relatório de Índice de IA feito pela Universidade de Stanford em 2024, o pessoal do Visual Capitalist fez esse dataviz mostrando como os custos de treinamento aumentaram de 2017 pra cá. Muito interessante, inclusive, pra ter noção da evolução da IA em poucos anos. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

1º dbt meetup de São Paulo
24 de junho - São Paulo-SP

IV Jornada Nacional Tableau
1 a 4 de julho - Online

HackTown 2024 (Data Hackers têm 15% de desconto!)
1 de agosto - Santa Rita do Sapucaí-MG

The Developer’s Conference 2024 SP
18 a 20 de setembro (Submissões de palestras até 19 de junho) - São Paulo-SP

Big Data Brazil Experience 2024
16 de novembro - São Paulo-SP

AWS Innovate
On-demand - Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?

Pode dar sua opinião sincera...

1 - Fraca | 2 - Razoável | 3 - Média | 4 - Boa | 5 - Excelente

Faça Login ou Inscrever-se para participar de pesquisas.