• Data Hackers Newsletter
  • Posts
  • Nova IA da Meta promete revolucionar a forma como escrevemos códigos e já está liberada 🚀

Nova IA da Meta promete revolucionar a forma como escrevemos códigos e já está liberada 🚀

E mais: Tutorial passo a passo NLP; Python agora tem o Scikit-LLM; Exemplo prático de uma plataforma de dados moderna;

Fala, Data Hackers! E aí, bora começar o mês de julho sabendo o que tem rolado de mais quente no universo dos dados?

Hoje trazemos como destaque o lançamento do Meta LLM compiler, que tem potencial para revolucionar a forma como escreveremos códigos daqui pra frente. Temos ainda um tutorial de como criar um modelo usando NLP para reconhecer sentimentos em textos, e a compra da Hyperplane pela Nubank, que promete acelerar a estratégia de IA do banco digital.

Antes de começar só um pedido… Já deu seu Upvote no Dataset do Data Hackers no Kaggle? Link: https://www.kaggle.com/datasets/datahackers/state-of-data-brazil-2023

Confira outros destaques desta edição:

🚀Alerta de Nova Parceria 🚀

Estamos felizes em anunciar a nossa mais recente parceria entre a comunidade Data Hackers e a BMC Software! 🤝✨

Esta colaboração une duas forças poderosas no mundo da orquestração de dados. Juntos, vamos explorar e expandir as fronteiras da gestão de dados, trazendo insights e soluções valiosas para nossa comunidade.

🔍 Spoiler Alert! 🎙️ No próximo episódio do podcast Data Hackers, vamos mergulhar a fundo no universo dos pipelines de dados, com dicas valiosas e insights exclusivos para você melhorar sua estratégia de dados. Não perca! 🔥

Fique ligado para mais novidades e prepare-se para o que vem por aí!

Com o objetivo de explorar inovações e tendências do momento em relação à inteligência artificial, a Ambev Tech lança seu terceiro circuito de Meetups Tech&Cheers, edição Data & Analytics.

O evento será realizado no dia 24/07 no escritório da Ambev em São Paulo (SP) a partir das 18h30, em uma parceria especial com a comunidade Data Hackers. Nesta edição, vamos seguir uma programação técnica para discutir sobre IA Generativa, experiência do usuário, personalização de produtos e serviços; além de uma mesa redonda mediada por Daniel Cassiano, Diretor de Data & Analytics da Ambev Tech.

Você não vai querer ficar de fora, vai? Vale lembrar que o encontro será apenas presencial, com vagas limitadas, garantidas conforme preenchimento do formulário de inscrição.

A Meta liberou nos últimos dias o acesso ao Meta LLM compiler, um conjunto de modelos robustos e de código aberto projetados para otimizar o código. Os pesquisadores por trás da novidade investiram pesado na até então pouco explorada aplicação de LLMs ao código e à otimização do compilador: o modelo foi treinado com um corpus massivo de 546 bilhões de tokens de LLVM-IR e código assembly, o que permitiu a ele compreender representações intermediárias do compilador, linguagem assembly e técnicas de otimização. A expectativa é que o compilador da Meta mude a forma como escrevemos código daqui por diante. (em Inglês)

O Processamento de Linguagem Natural (NLP, na sigla em inglês) usa algoritmos de Machine Learning para funções como classificar sentimentos em textos, analisar tópicos e traduzir automaticamente. E o treinamento desses algoritmos passa, naturalmente, por dados.

Neste artigo, o Data Hacker Alysson Guimarães apresenta um tutorial passo a passo para a criação de um modelo que usa NLP para analisar o sentimento de textos, passando pelo pré-processamento de texto, criação de features, treinamento, avaliação e implementação do modelo. Conteúdo utilíssimo para quem quer se aventurar nessa área. (em Português)

O Nubank anunciou na última semana a aquisição da empresa de inteligência de dados Hyperplane. A ideia é usar o expertise da empresa para trazer produtos e serviços financeiros mais inteligentes e personalizados aos clientes. Os valores não foram divulgados.

Com três brasileiros entre seus fundadores e localizada no Vale do Silício, nos EUA, a Hyperplane foi criada em 2022 e sua plataforma permite que as instituições financeiras treinem, avaliem e implantem modelos autossupervisionados de aprendizagem profunda em dados próprios para a tomada de decisões. (em Português)

Conheça o Scikit-LLM: Sklearn com o foco em modelos de AIGen e LLMs
O Scikit-LLM representa um divisor de águas na análise de textos: ao combinar modelos de alta capacidade, como o ChatGPT, e a biblioteca scikit-learn, essa ferramenta é capaz de analisar e compreender textos de uma forma inédita, se atentando a fatores como padrões ocultos, sentimento e contexto. Aqui, são listadas e exemplificadas algumas de suas principais funcionalidades. (em Inglês)

Explorando o Estado da AI Generativa no Brasil
Partindo dos dados da pesquisa State of Data Brazil 2023, a Data Hacker Laura Mattos fez uma análise detalhada sobre a adoção e o uso de AI generativa e LLMs, que estão revolucionando diversas indústrias ao redor do mundo, nas empresas brasileiras. Leitura fundamental para entender o estágio em que estamos hoje e quais as perspectivas para o futuro. (em Português)

Dominando o RAG: Estratégias Avançadas para Chatbots Inteligentes
Retrieval-Augmented Generation (RAG) é o processo de otimizar a saída de um Large Language Model (LLM) de forma que ele faça referência a uma base de conhecimento confiável fora das suas fontes de dados de treinamento antes de gerar uma resposta. Esse processo tem sido muito usado no desenvolvimento de chatbots, e aqui temos reunidas estratégias para dominar esse processo e extrair seu melhor. (em Português)

Como o Airbnb mede a eficácia de sua marca analisando dados de redes sociais
Percepção de marca é como os clientes de forma geral se sentem em relação a uma empresa. As dificuldades de medir a percepção de marca quantitativamente, no entanto, levam muitas companhias a encomendar pesquisas com esse intuito, o que leva a resultados limitados em função de vieses e de limitações no número de entrevistados. A Airbnb, no entanto, desenvolveu uma técnica para medir a percepção de sua marca quantitativamente usando os (abundantes) dados das redes sociais. Entenda como essa técnica funciona. (em Inglês)

Como os ‘Projetos’ e os novos recursos de compartilhamento da Anthropic estão revolucionando o trabalho em equipe de IA
O Claude, modelo de IA generativa da Anthropic, ganhou recentemente novas ferramentas de colaboração que têm potencial para revolucionar a forma como as equipes interagem com a IA, remodelando os fluxos de trabalho nos mais diversos setores. Este artigo da Venture Beat explica o que você precisa saber sobre essas novas ferramentas e sua atuação. (em Inglês)

Exemplo prático de uma plataforma moderna de dados: O Caso da Afya
A Afya hoje é uma referência em educação e soluções digitais médicas no Brasil, com seus produtos Whitebook e iClinic, mas por trás desse sucesso tem uma plataforma moderna de dados com uma arquitetura que prioriza flexibilidade, escalabilidade e segurança. Neste artigo, Leandro Carnevali, Lead Data Engineer & MLOps da empresa, explica detalhes do funcionamento dessa plataforma. (em Português)

DICA DE VÍDEO

Hoje, trazemos um vídeo que se tornou um clássico do canal Data Hackers: nosso cofundador Paulo Vasconcellos explicando de forma detalhada as diferenças entre um Cientista de Dados Junior, Pleno e Senior, da natureza do trabalho à formação, passando ainda por aspectos como remuneração e experiência. Vale a pena ver (ou rever)! (em Português)

VAGAS DA SEMANA

Belo Horizonte-MG e São Paulo-SP - Híbrido

  • Estar com matrícula ativa na graduação;

  • Ter previsão de formatura entre dezembro de 2025

    e dezembro de 2026;

  • Poder atuar durante 30 horas semanais (6 horas diárias);

  • Disponibilidade para trabalhar presencialmente, em Belo Horizonte ou São Paulo, 3 vezes por semana;

Belo Horizonte-MG - Presencial

  • Atitude empreendedora e protagonismo na comunicação e relacionamento com áreas de interface;

  • Experiência com coleta ou extração de dados em múltiplos tipos de fontes e formatos, estruturados e não estruturados;

  • Experiência com visualização de dados e elaboração de apresentações com insight de negócio;

  • Conhecimento de ferramentas de BI e Data Visualization, como Data Lake, Data Warehouse, Tableau, Power BI, etc;

  • Conhecimento em inglês avançado.

MEME DA SEMANA

DATA VISUALIZATION DA SEMANA

Os EUA foram formados por imigrantes e tem tradição em receber povos do mundo todo, com essa tradição eternizada nos versos de um poema atribuído à Estátua da Liberdade. Mas nem todo mundo entra pelas vias legais - hoje os imigrantes ilegais são estimados em 11 milhões de pessoas, o que provoca a ira de nacionalistas conservadores. Mas de onde, afinal, vem toda essa gente? Para ter uma ideia da resposta, vale dar uma olhada nesse Dataviz feito pelo pessoal do Visual Capitalist com base em estimativas do Migration Policy Institute (MPI). (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

IV Jornada Nacional Tableau
1 a 4 de julho - Online

HackTown 2024 (Data Hackers têm 15% de desconto!)
1 de agosto - Santa Rita do Sapucaí-MG

The Developer’s Conference 2024 SP
18 a 20 de setembro - São Paulo-SP

Big Data Brazil Experience 2024
16 de novembro - São Paulo-SP

AWS Innovate
On-demand - Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?

Pode dar sua opinião sincera...

Login or Subscribe to participate in polls.

Logo