IA vai substituir o desenvolvedor? Veja o que diz o CEO do Github 🗣️

E mais: Como criar um dashboard usando Python e PostgreSQL; Criando um datalake de baixo custo com Airflow, DBT e muito mais

Fala, Data Hackers!

Bora abrir mais uma semana desse mês de julho conferindo as novidades do mundo dos dados? Hoje temos como destaque a participação do CEO do Github em um TED Talk onde ele expôs, de forma muito embasada e clara, o que pensa sobre a possibilidade da IA substituir desenvolvedores no futuro. Além disso, temos um tutorial sobre como consumir dados do Postgres e usar Python para criar um dashboard a partir deles, um artigo que acompanha, do zero, a criação de um datalake de baixo custo, e o lançamento de um modelo de IA generativa que responde por voz que tem dado o que falar.

Confira outros destaques dessa edição:

Neste episódio mergulhamos profundamente na automação de pipelines de dados e seu impacto na eficiência operacional. Para isso, contamos com as valorosas participações do Gerente de produto na BMC Software Murilo Viveiros , daSr. Solution Engineer na BMC Software Fabiana Delfino e do Data Architecture Manager na Gerdau Luiz Pereira. 

Venha descobrir como as tecnologias de automação estão revolucionando a gestão de dados e impulsionando a produtividade das equipes.

E aí, já deu seu upvote no Dataset da pesquisa State of Data Brazil 2023, que subimos no Kaggle nas últimas semanas?

O upvote é importante para o dataset ganhar mais visibilidade e atingir mais pessoas. Já alcançamos a medalha de prata, mas, com sua ajuda, podemos atingir a medalha de ouro, com a qual tivemos a felicidade de sermos agraciados nos últimos anos.

São poucos segundos do seu tempo, e um clique. Dá uma moral pra gente, vai?

Essa semana tem Supletivo Data Hackers Terça as 20h: Tema Data Contracts

Nessa aula ao vivo e hands on você vai ter a oportunidade de aprender mais sobre Data Contracts e como esse conceito é fundamental para a maturidade de produtos de dados e para projetos de alta complexidade como Data Mesh.

A aula será conduzida pelo Rodrigo Teoria, que vai te ajudar a fazer um hands-on com datacontracts-cli e mostrar o datamesh-manager.

Se vc trabalha com dados e quer aprender a construir produtos mais confiáveis não pode perder essa! (em Português)

Sabe aquele projeto que vale a pena ter no portfólio? Este artigo ensina a consumir dados do Postgres (um dos bancos de dados mais populares do mercado) e, a partir desses dados, criar um dashboard utilizando ferramentas como Python e Altair. Bom pra aprender - e pra dar aquela engordada no currículo. (em Inglês)

Datalakes geralmente são tratados como projetos altamente complexos, que envolve uma série de ferramentas grandes e caras. Mas e se houvesse uma forma de começar pequeno, já experimentando algumas das tecnologias de ponta do mercado?

Este artigo apresenta passo a passo a criação de um datalake agnóstico de clouds usando as ferramentas gratuitas de engenharia de dados mais conhecidas, com capacidade de ser executado localmente via Docker e voltado para um problema real. Mais didático que isso, impossível. (em Português)

Há algumas semanas, a OpenAI anunciou, junto com o GPT-4o, seu novo assistente de voz, que foi imediatamente aclamado pela qualidade da voz e pela velocidade com que respondia (praticamente em tempo real).

Pouquíssimo tempo depois (mais precisamente na última semana), o laboratório francês Kyutai apresentou Moshi: um modelo open-source multimodal que responde praticamente instantaneamente. O comentário geral é que os resultados são impressionantes e eu, particularmente, estou muito animado para testar. (em Português)

OUTROS TÓPICOS

O melhor repositório de MLOps que você vai ver hoje
MLOps é uma área abundante em conteúdo para aprender, e há novas ferramentas e plataformas surgindo a todo momento, o que torna difícil acompanhar as novidades. Mas vai por mim: esse repositório no Github traz em primeira mão tudo de mais relevante que surge sobre o assunto. É o conteúdo que você precisa para acompanhar e aprender o que rola na área. (em Inglês)

YouTube agora permite que você peça remoção de vídeos gerados por IA que simulem sua voz ou rosto
Depois de aderir à agenda pela IA responsável em novembro do ano passado, o YouTube deu um passo além e agora permite que usuários peçam remoção de vídeos que simulem seus rostos ou vozes através de IA. No entanto, em vez de solicitar que o conteúdo seja denunciado por ser enganoso, como se faria com um deepfake, a plataforma quer que os usuários denunciem esse tipo de vídeo diretamente como violação de privacidade. (em Inglês)

Figma remove sua ferramenta de IA após repercussão negativa
Essa semana, eu e a Monique anunciamos no Data Hackers News que a Figma estava lançando uma ferramenta de IA para ajudar designers. Pois bem: menos de uma semana depois do anúncio, tudo indica que a Figma está voltando atrás. A decisão veio depois de a ferramenta ter elaborado designs que se pareciam muito com o aplicativo meteorológico iOS da Apple, o que repercutiu muito mal. (em Inglês)

Maritaca anuncia novo modelo de LLM brasileiro
A Maritaca AI, startup brasileira voltada para modelos de linguagem, acaba de lançar seu novo modelo de LLM. A empresa, que já havia lançado um modelo próprio no fim do ano passado, anunciou o Sabiá-3, modelo mais avançado já lançado pela companhia, que alega que sua assertividade é equiparável à do GPT-4o. (em Português)

DICA DE VÍDEO

Sempre levantam a bola da substituição de mão de obra humana por IA e é claro que os desenvolvedores não ficam de fora disso. Mas em uma semana em que diversos executivos afirmaram que "não precisavam da TI", saiu esse TED Talk do CEO do Github: uma conversa muito mais embasada e acurada, que aponta que a IA tem tudo pra ser uma importante ferramenta trabalhando JUNTO com desenvolvedores. Vale muito a pena assistir. (em Inglês)

VAGAS DA SEMANA

Remoto

  • Formação em Ciências da Computação, Matemática, Estatística, Engenharia, Ciência de Dados ou correlatas;

  • Desejável experiência em análise de risco preferencialmente em instituição financeira ou fintech;

  • Compreensão de modelagem, estruturas de armazenamento e tratamento de dados;

  • Programação em SQL e Python;

  • Compreensão de métodos estatísticos (regressão, clusterização, teste de hipóteses, desenvolvimento de modelos de aprendizado supervisionado e não-supervisionado);

  • Domínio de frameworks de desenvolvimento de modelos de machine learning;

  • Desejável conhecimento nos serviços de computação em nuvem da AWS;

  • Habilidades analíticas e capacidade de transformar dados complexos em insights acionáveis

Remoto

  • Formação avançada em Estatística, Computação, Engenharia, Economia ou correlatas;

  • Experiência em design e análise de experimentos online (como testes A/B) como Cientista de Dados em um time de Desenvolvimento de Produtos (de preferência com grandes datasets e em uma empresa de tecnologia em rápido crescimento);

  • Proficiência em SQL;

  • Experiência em modelagem estatística aplicada em pelo menos uma linguagem (Python, R, etc);

  • Bom entendimento dos conceitos básicos de Machine Learning e Estatística;

  • Senso apurado de negócios e produto: capacidade de transformar perguntas vagas em hipóteses testáveis e métricas para orientar decisões de negócio;

  • Capacidade de automotivação e um histórico comprovado de liderar projetos até a conclusão

MEME DA SEMANA

E ainda dizem que não precisamos mais de desenvolvedores...

DATA VISUALIZATION DA SEMANA

Você sabia que a energia demandada em nível mundial por data centers, criptomoedas e inteligência artificial deve dobrar entre 2022 e 2026, segundo projeções? As atuais fontes energéticas da humanidade certamente não estão prontas pra isso. Será preciso encontrar novas soluções, e o pessoal dos fundos de investimento Range acredita que a energia nuclear pode ser uma boa alternativa. Para isso, eles listam 5 motivos, que o pessoal do Visual Capitalist expôs de forma didática nesse dataviz. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

HackTown 2024 (Data Hackers têm 15% de desconto!)
01 de agosto - Santa Rita do Sapucaí-MG

The Developer’s Conference 2024 SP
18 a 20 de setembro - São Paulo-SP

Big Data Brazil Experience 2024
16 de novembro - São Paulo-SP

AWS Innovate
On-demand - Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?

Pode dar sua opinião sincera...

Faça Login ou Inscrever-se para participar de pesquisas.

Logo