Os dados da pesquisa State of Data Brazil já estão liberados no Kaggle! 📈

E mais: OpenAI compra Rockset buscando indexação de dados para melhorar IA; Como escolher a melhor modelagem para Data Warehouse

Fala, Data Hackers!

Antes que junho acabe, partiu iniciar a semana sabendo do que tem rolado no mundo dos dados? Nessa edição trazemos em primeira mão os dados da pesquisa State of Data Brazil 2023 disponíveis no Kaggle, além da aquisição da Rockset pela OpenAI e um guia que traz sete tipos de modelagem para Data Warehouse, permitindo entender o que pode ser melhor para cada caso.

Confira outros destaques dessa edição:

Dessa vez mergulhamos em uma jornada de engenharia de dados com os especialistas do Itaú. Conheça as estratégias de dados que moldam o futuro do banco, e saiba como é trabalhar em uma empresa onde a utilização intensiva de dados é essencial para tomar as melhores decisões.

Neste episódio do Data Hackers - a maior comunidade de AI e Data Science do Brasil, conheçam as pessoas que desempenham um papel crucial na infraestrutura de dados do Itaú Unibanco: a Data Engineer Priscila Militão, o Analista de Dados Vinicius Rio, o Analytics Engineer Thiago Panini e o Gerente de Analytics Carlos Vaccáro.

Prepare-se para uma imersão no futuro dos dados no Itaú e descubra como essas mentes brilhantes estão moldando o panorama financeiro global com insights poderosos.

Se você é apaixonado por Dados e Analytics, essa é uma oportunidade para
você📣

Está no ar mais uma Batalha de Dados do Itaú!

A Batalha vai acontecer nos dias 13 a 14 de julho de forma presencial e esta é sua chance de enfrentar o desafio de trabalhar com um grande volume de dados em uma arquitetura Data Mesh em cloud.

Essa edição tem como foco avaliar os conhecimentos dos participantes no uso avançado de preparação, harmonização e especialização de dados, além de aplicação de data storytelling e DataViz. E aí, vamos nessa?

Inscrições até o dia 01 de julho!

Anunciamos que os dados da State of Data Brazil 2023 já estão liberados no Kaggle! A mais completa pesquisa já realizada sobre o mercado brasileiro de dados, que contou com as respostas de mais de 5300 profissionais e permitiu inúmeros insights, agora tem seus dados abertos na principal plataforma para aprendizado e competição de cientistas de dados. Convidamos a todos a mergulharem nos dados desse levantamento (e aproveitamos para pedir: deem uma moral e votem no nosso dataset, vai?). Estamos ansiosos para conferir o que pode surgir a partir das interações da comunidade! (em Português)

Na última sexta-feira a OpenAI adquiriu a Rockset, responsável por um banco de dados analítico e em tempo real que é renomado por sua indexação de dados e por seus recursos de consulta.

A OpenAI anunciou que pretende integrar a tecnologia da Rockset em todos os seus produtos de IA para potencializar sua infraestrutura de recuperação, levando os usuários a aproveitarem seus dados de forma mais eficiente. Para isso membros destacados dos times das duas empresas trabalharão juntos, e diretores de ambas as empresas se dizem entusiasmados com as possibilidades. (em Inglês)

Uma Data Warehouse é um banco de dados otimizado para armazenar grandes históricos de dados, permitindo fazer análises e pesquisas com facilidade. Mas estruturar os dados nesse banco para permitir análises eficientes e ao mesmo tempo deixá-los flexíveis o bastante para mudanças que os negócios eventualmente exijam pode ser um desafio.

Este artigo traz sete diferentes tipos de modelagem para dados em Data Warehouses, explicando os prós e contras de seu funcionamento, para permitir escolher qual a melhor abordagem para cada caso. (em Inglês)

OUTROS TÓPICOS

Nvidia ultrapassa Microsoft e se torna a empresa publica mais valiosa do mundo
A Nvidia, empresa cujo tamanho aumentou em mais de nove vezes desde o final de 2022, ultrapassou a Microsoft e se tornou a empresa pública mais valiosa do mundo. A companhia ultrapassou o market cap de US$ 3 trilhões no início de junho, juntando-se à Microsoft e à Apple. A fabricação de chips voltados para a IA fez com que a Nvidia fosse a principal beneficiária do recente boom da IA generativa. Outras big techs, no entanto, estão desenvolvendo seus chips e prometem entrar no páreo. (em Inglês)

Florence-2: Microsoft lança modelo de visão computacional estado-da-arte
Nos últimos dias, a Microsoft lançou Florence-2, modelo que, baseado em um prompt, cumpre diversas tarefas de visão computacional. O grande destaque desse modelo é que, embora ele seja muito pequeno na quantidade de parâmetros, consegue responder a tarefas de reconhecimento de imagem, OCR e outros com uma qualidade excepcional . Vale muito a pena testar. (em Inglês)

Como servir milhares de requisições com LLM
A gente sabe que servir um modelo que aguente milhares de requisições por segundo pode ser um desafio enorme. Neste post, o pessoal da character.ai, conta sobre as técnicas e otimizações que eles desenvolveram para conseguir atender sua demanda - atualmente, mais de 20 mil requisições por segundo. (em Inglês)

Runway anuncia modelo para competir com Sora da OpenAI
A estadunidense Runaway AI lançou na semana passada seu modelo de IA para geração de vídeos Gen-3 Alpha, que já de cara deixou ótimas impressões: tem sido avaliado como um dos melhores modelos aos quais temos acesso, e deve competir diretamente com o "ainda não-lançado" Sora da OpenAI. O cerco está se apertando. (em Inglês)

DICA DE VÍDEO

Simplesmente mais uma baita aula do Andrej Karpathy (ex-Tesla e OpenAI)! Dessa vez, ele ensina como reproduzir um dos mais populares foundation models que temos na área: o GPT-2. E, de quebra, vai explicando pelo caminho toda uma série de recursos e conceitos envolvidos. Vale muito a pena assistir e conhecer. (em Inglês)

VAGAS DA SEMANA

Presencial - São Paulo-SP

  • Mínimo de 9 anos de experiência na aplicação de soluções de Machine Learning a problemas de negócio (necessário experiência com desenvolvimento de modelos);

  • Pós-graduação em Estatística, Matemárica, Computação ou correlatas (preferência por Mestrado ou PhD);

  • Conhecimento profundo do funcionamento dos sistemas bancário e de pagamentos;

  • Conhecimentos em dados, inteligência de mercado, BI e tecnologias e ferramentas de AI, com habilidade para incorporar novas técnicas na resolução de problemas de negócio;

  • Experiência no planejamento e gestão de múltiplos projetos grandes envolvendo times multifuncionais;

  • Capacidade de apresentar ideias e análises envolvendo dados para platéias de diferentes níveis;

  • Inglês fluente (espanhol é um diferencial).

Remoto

  • Experiência comprovada como Cientista de Dados;

  • Graduação em Ciência de Dados, Estatística, Matemática, Ciência da Computação ou Engenharias;

  • Proficiência em Python e SQL para análise e modelagem de dados;

  • Experiência com computação em nuvem (GCP e AWS);

  • Experiência com manipulação de grandes volumes de dados;

  • Sólido conhecimento de conceitos e técnicas estatísticas (distribuições estatísticas, testes de hipótese, estatística multivariada e outros);

  • Experiência em técnicas tradicionais de Machine Learning (classificação, regressão, séries temporais e outras);

  • Vivência com frameworks de Machine Learning (TensorFlow; Keras; Scikit Learn; PyTorch);

  • Conhecimento em ferramentas de versionamento de código (git).

MEME DA SEMANA

DATA VISUALIZATION DA SEMANA

Os cientistas já avisaram que a média da temperatura global deve subir 2 graus celsius nos próximos anos. Mas como isso vai ser percebido na prática? O pessoal do portal The Pudding desenvolveu este site que, com uma visualização bem interessante, aborda 70 cidades relevantes do mundo e mostra como a classificação do clima delas vai mudar. Spoiler: se prepare pra ver fabulosos resorts tropicais na costa dos países da Escandinávia. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

1º dbt meetup de São Paulo
24 de junho - São Paulo-SP

IV Jornada Nacional Tableau
1 a 4 de julho - Online

HackTown 2024 (Data Hackers têm 15% de desconto!)
01 de agosto - Santa Rita do Sapucaí-MG

The Developer’s Conference 2024 SP
18 a 20 de setembro (Submissões de palestras até 19 de junho) - São Paulo-SP

Big Data Brazil Experience 2024
16 de novembro - São Paulo-SP

AWS Innovate
On-demand - Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?

Pode dar sua opinião sincera...

Faça Login ou Inscrever-se para participar de pesquisas.

Logo