Aprenda a entregar seus modelos de IA em produção 🚀

Databricks bate recorde de performance Spotify sobre Modelos de Personalização

Fala, Data Hacker! Estamos aqui, depois do feriadão, pra te dar conteúdo de primeira sobre Data!Nessa edição busquei compilar vários conteúdos sobre produtização de Machine Learning e, como destaque, trouxe esse post incrível do Toni Esteves que dá o passo a passo de como, porquê e quando monitorar seus modelos de ML em larga-escala.Toni passa conta o que torna difícil monitorar uma solução de ML, porque você deve fazê-lo, quais modelos operacionais usar, ferramentas de Logs, Observabilidade e mais! Realmente, um guia completo até pra Cientistas de Dados e Engenheiros de ML experientes no assunto.E ainda aqui hoje temos:

Live exclusiva sobre a pesquisa State of Data Brasil 2021+ Sorteio de Adesivos!

Fique de olho na nossa newsletter e nosso canal do Youtube, na semana do dia 15/11 vai rolar um sorteio de 100 packs de adesivos da comunidade Data Hackers!Para participar é muito fácil, basta preencher a pesquisa State of Data 2021 e selecionar a opção "Quero participar do sorteio de adesivos" ao final da pesquisa.

Construir um modelo de Machine Learning que roda num Jupyter Notebook na sua máquina é muito tranquilo. Há diversos tutoriais na Internet por aí, que ensina do zero como modelar e predizer com inteligência de dados, em Python, R ou sua linguagem predileta. Mas, quando o assunto é produtizar esses modelos, colocar pra rodar em larga-escala, a parada fica difícil.Nesse post incrível, o Data Hacker Toni Esteves explica uma das partes mais importantes e complexas de fazer para todo Cientista de Dados: Monitoramento de Modelos de ML. Com dicas desde processo a se utilizar, como o CD4ML até ferramentas a se utilizar, como Elasticsearch e Kibana, Toni dá uma aula sobre Data Observability, MLOps e ML Engineering. Imperdível! (em Português)

O Spotify é uma das maiores referências do mundo em modelos de recomendação e personalização. Isso é inegável né, basta ver o quanto eles conseguem identificar dos nossos gostos naquelas campanhas que eles mostram as estatísticas de nossas playlists.

Eles também são reconhecidos por serem muito abertos, tendo vários open-source legais e posts muito interessantes sobre como as coisas funcionam lá dentro.

Nesse post, o pessoal conta várias lições aprendidas em sua longa jornada de desenvolvimento de modelos de ML para Personalização de Experiência. Da jornada de sair do Pythonzão básico na mão, até o uso de Kubeflow e outros sistemas internos - pra Feature Store e Model Serving, por exemplo - e mais, tudo nesse artigo aí sensacional! (em Inglês)

 

A briga entre as gigantes de tecnologia e os novos players Databricks e Snowflake não acaba tão cedo. O Databricks desbancou o Alibaba Cloud e bateu o record de processamento de dados TPC-DS 100Tb, um dos rankings mais importantes que avalia performance de ferramentas de MPP - Massive Parallel Processing - de mercado. O teste foi feito pelo time de pesquisas do Barcelona Supercomputing Center.

Esse post conta tudo em detalhes do teste, além de diferença no preço/processamento entre Snowflake e os laranjinhas. A briga vai longe hein!? (em Inglês)

Tá entrando na área de dados agora, mas ainda não decidiu qual linguagem de programação adotar? Entre R, SQL e outras, a que mais vem se destacado nos últimos anos é o Python, principalmente por sua versatilidade e facilidade de aprendizado. Nesse artigo o Data Hacker João Gustavo compila vários motivos para você utilizar a linguagem da cobrinha nessa jornada. (Em Português)

Estamos numa era onde vários produtos de dados estão ganhando mercado rapidamente e, maioria deles, está levantando um volume altíssimo de capital para isso. O último da lista é o Clickhouse, banco NoSQL de alta-performance, criado por Alexey Milovidov, utilizado largamente pela comunidade open-source de Data Engineering para processar grandes volumes de dados. Nesse post, o time explica os próximos passos e o que levaram eles a levantar essa grana. (em Inglês)

Em um movimento bem interessante, DBT Cloud se aproxima da Snowflake, se tornando um Snowflake Premier Partner e disponibilizando o DBT no marketplace da SF. Além disso, o pessoal vem trabalhando em conjunto em vários cases, mostrando uma sinergia muito grande de negócios. Será que vai vir fusão por aí? Anotem aí mais uma previsão pra minha conta de 2022! hehe (em Inglês)

VAGAS DA SEMANA

  • Modelagem ML/DL e Estatística

  • Experiência em Python

  • Interesse em data explainability e causality

  • Interesse em criar ferramentas de Data Science para Cientistas de Dados

  • Inglês Fluente

  • Curso de Tecnologia, a partir do  5º semestre;

  • Perfil analítico;

  • Querying (SQL);

  • Conhecimento básico de modelagem;

  • Disponibilidade de 20h a 30h horas semanais.

Supletivo DH: Data Cloud SnowflakePra quem não conseguiu acompanhar ao vivo, tivemos essa semana o Supletivo DH: Snowflake! Com a participação do Danilo Lázaro e do Paulo Monteiro da Snowflake e do Data Hacker Rodrigo Teoria, tivemos quase 2 horas de conteúdo, hands-on e resposta a perguntas da galera no chat. Não perde dessa vez hein!? (em Português)

Agora não dá mais!! :(

Dica do Data Hacker Lucas Macedo no nosso

Como representar Small Data de forma simples, bonita e intuitiva? Ta aí! Belo gráfico que achei lá no Reddit. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

Building Nu: Comunicando dados de Forma Efetiva - Com André Sionek17 de Novembro - 19:00 - Evento Gratuito e 100% OnlineLançamento WikiLAI - Lei de Acesso a Informação18 de Novembro - 10am - Evento Gratuito e 100% Online