ChatGPT ganha rival brasileiro (e mais barato)

E mais: Por que os diretores de dados e de IA estão fadados ao fracasso; Como processar centenas de gigas de dados em nuvem usando Polars.

Fala, Data Hackers! Com o ano quase acabando, vamos pra mais uma semana com tudo de mais quente que rolou no mundo dos dados esses dias?

Nesta edição trazemos um chatbot brasileiro que promete ser melhor, mais barato e adaptado à nossa realidade do que o ChatGPT. Trazemos ainda um guia para evitar que diretores de dados e de IA fracassem em suas funções e um passo a passo para processar gigas de dados em nuvem usando funções da Coiled e Polars.

Confira outros destaques dessa edição:

A Maritaca AI, startup brasileira focada em especializar modelos de linguagem para domínios e idiomas específicos, acaba de lançar a MariTalk, um chatbot baseado em LLM e voltado especificamente para as necessidades brasileiras.

O chatbot possui duas versões: a MariTalk API, que pode ser acessada por qualquer pessoa inclusive por meio de uma biblioteca Python, e a MariTalk Local, que permite baixar e rodar os LLMs numa determinada máquina, o que garante a privacidade dos dados.

De acordo com a Maritaca AI, o modelo apresenta melhor qualidade e menor custo que o GPT-3.5-turbo, com cada milhão de tokens custando R$5. (em Português)

Com a explosão da IA generativa e novas e poderosas ferramentas de dados, os diretores de dados e inteligência artificial ganharam uma importância e um prestígio ainda maior. Muitos, no entanto, estão fadados ao fracasso devido a fatores como mau alinhamento, falta de confiança e a forma como seu trabalho é compreendido internamente.

Este artigo traz 5 passos que podem ajudar os diretores de dados e IA a terem mais sucesso em sua missão de tornar as organizações mais pautadas e orientadas por seus dados. Boa leitura não só para diretores, mas para todos que integram o mundo coorporativo. (em Inglês)

Máquinas locais frequentemente têm dificuldades para processar grandes conjuntos de dados devido às limitações de memória e rede. Há, no entanto, funções da empresa americana Coiled que fornecem uma solução baseada em nuvem que permite o manuseio eficiente e econômico de conjuntos de dados tão extensos. E a incorporação de bibliotecas como Polars pode aprimorar ainda mais essa abordagem.

Aqui, temos um exemplo bem prático: um passo a passo do uso de funções da Coiled para processar um conjunto de 150 GB de dados da Uber e da Lyft em uma única máquina de nuvem usando a biblioteca Polars. (em Inglês)

OUTROS TÓPICOS

Google lança Gemini, modelo de IA mais poderoso já produzido pela empresa
Depois da notícia de um adiamento para janeiro no lançamento do Gemini, modelo de IA do Google previsto para a última semana, a empresa voltou atrás e fez o lançamento na semana passada. O Gemini faz parte de uma nova geração de modelos que vai empoderar produtos Google, incluindo, claro, o Bard, principal rival do ChatGPT. Em demonstração, o Gemini conseguiu superar o GPT-4 em quase todos os benchmarkings, mostrando ser um rival de peso para a OpenAI. As expectativas são, portanto, altíssimas. (em Inglês)

Criadora do Stable Diffusion pode ser vendida
A Stability AI, empresa britânica criadora do Stable Diffusion (maior modelo open-source de geração de imagens), estaria considerando a possibilidade de ser vendida, segundo a agência Bloomberg. A venda estaria relacionada à pressão que a empresa vem sofrendo dos investidores em função de sua situação financeira. Apesar de muita gente se mostrar interessada em adquirir a empresa, a negociação não é iminente, e a Stability pode não ser efetivamente vendida. (em Inglês)

Como o tamanho do seu pull request impacta na sua eficácia
Quando um DEV conclui o desenvolvimento de uma feature e faz um pull request, o quanto o tamanho desse PR pode influir na quantidade de comentários? Neste artigo são analisados diferentes pull requests, seu tempo de leitura e o consequente impacto na eficácia de um projeto. Além disso, é discutido qual seria o tamanho ideal para tornar essa notificação mais eficiente para todos os envolvidos. (em Inglês)

PartyRock: a ferramenta da Amazon para criar produtos de IA com Bedrock
Há algumas semanas, a Amazon lançou o PartyRock: uma ferramenta para criar aplicações de IA generativa sem precisar escrever uma única linha de código. O PartyRock tem como base o Amazon Bedrock, serviço que disponibiliza modelos de base (FMs) da Amazon e das principais empresas de IA por meio de uma API. A ideia é que os usuários criem as aplicações de forma divertida, intuitiva e prática, e assim aprendam as técnicas e recursos necessários para aproveitar ao máximo a IA generativa. (em Inglês)

Gigante chinesa Alibaba apresenta IA capaz de animar imagens estáticas
A chinesa Alibaba anunciou ter desenvolvido um modelo de IA capaz de gerar animações a partir de imagens estáticas. Batizado de “Animate Anyone”, o modelo permite escolher poses, e as animações são realmente consistentes em matéria de continuidade, o que levou um vídeo demonstrando o modelo a bombar na internet recentemente. A demo e o código, contudo, ainda vão ser lançados em uma data não especificada. (em Inglês)

DICA DE VÍDEO

Algumas semanas atrás, uma influencer de Barcelona chamada Aitana López começou a bombar na internet. Só tem um detalhe: Aitana não é real, foi totalmente concebida por IA generativa. Esse vídeo mostra detalhes de como tais influencers são criadas e até ensina a criar uma similar. (em Inglês)

VAGAS DA SEMANA

Belo Horizonte - MG - Híbrido

  • Análise, definição, desenho técnico e propostas de solução para escopos de problemas;

  • Criação de modelos de Machine Learning (todas as etapas de um projeto);

  • Análise de dados e modelos estatísticos;

  • SQL (domínio);

  • Python ou R;

  • Controle de versão (preferencialmente o Git por GitHub ou GitLab);

  • Vivência em ambientes de desenvolvimento ágil.

Osasco - SP - Híbrido

  • Python e SQL;

  • Engenharia de software e pipelines de CI/CD;

  • Infraestrutura em nuvem;

  • Docker e Kubernetes;

  • Git;

  • Terraform (Diferencial);

  • Databricks/Spark (Difecencial);

  • Apache Airflow (Diferencial);

  • Ferramentas de ETL (Diferencial);

  • Desenvolvimento de APIs REST (Diferencial).

MEME DA SEMANA

Dica do Data Hacker Igor de Souza no nosso canal do Slack

DATA VISUALIZATION DA SEMANA

A população mundial dobrou de tamanho nos últimos 50 anos, e em 2022 superamos a marca de 8 bilhões de pessoas vivendo no planeta. Há diversos mapas ilustrando a dinâmica populacional do todo. Mas, como números muito grandes às vezes dificultam que a gente consiga ter uma visão do todo, o dataviz dessa semana traz uma outra proposta: com base nos dados da ONU, esse mapa apresenta como seria a divisão da atual população global se o mundo tivesse só mil pessoas. Bem interessante pra assimilar a dinâmica demográfica de uma forma mais concreta - e pra perceber como a escala pode fazer diferença em uma visualização de dados. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

Google Cloud Applied AI Summit
13 de dezembro - Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?

Pode dar sua opinião sincera...

Faça Login ou Inscrever-se para participar de pesquisas.

Logo

Em Co