Como me tornei um engenheiro de Machine Learning

E mais: Os perigos de um modelo de ML medíocre; Meta anuncia chatbot com IA no Brasil

Fala, Data Hackers!

E aí, bora começar a semana se informando do que tem rolado no mundo dos dados? Essa semana trazemos um artigo em que o engenheiro de machine learning Arnaldo Gualberto conta sua trajetória e dá uma série de dicas de como se aprofundar em ML. Temos ainda um artigo que expõe como, caso seja feito de forma medíocre, um modelo de ML pode ser extremamente prejudicial ao negócio, e o anúncio feito pela Meta do lançamento no Brasil de um chatbot com IA integrado a redes como o Instagram, o Facebook e o WhatsApp.

Confira outros destaques dessa edição:

Quer entender mais sobre Data Warehouse? Junte-se a nós para um bate-papo imperdível com Luciano Vasconcelos Filho onde vamos explorar as melhores práticas, ferramentas essenciais e casos de uso.

Hoje (dia 10/6), às 20h, no nosso canal do YouTube (acesse aqui).

Não perca essa oportunidade de aprimorar seus conhecimentos e alavancar sua carreira!

Esbarramos novamente com esse incrível artigo do Arnaldo Gualberto que relata como foi sua jornada para se tornar um engenheiro de Machine Learning. Além da trajetória, interessantíssima por si só, ele traz várias dicas de conteúdos para aprender com profundidade sobre ML. Excelente conteúdo para quem quer dar os primeiros passos nessa área. (em Português)

Sendo Machine Learning a bola da vez, todas as empresas querem incorporar um modelo de ML ao seu negócio. Mas uma pergunta fundamental: será que vale a pena fazer isso de qualquer jeito, afinal?

Este artigo expõe como um modelo de ML feito de forma medíocre pode, na verdade, ser maléfico para o negócio: ao criar soluções difíceis de trackear (e corrigir), tais modelos causam muito dano à empresa até que alguém corrija o rumo das coisas. De quebra, o artigo traz ainda dicas de como evitar cair nessa armadilha. (em Inglês)

A Meta anunciou na última semana o lançamento da sua 1ª assistente de Inteligência Artificial no Brasil. O robô será integrado ao WhatsApp, ao Instagram, ao Facebook e ao Messenger) e estará disponível a partir do mês de julho.

A assistente, que já está disponível nos EUA, funciona de maneira similar ao ChatGPT: interagindo com os usuários, criando imagens e textos e usando o banco de informações de buscadores como o Bing e o Google para responder às perguntas e demandas. (em Português)

OUTROS TÓPICOS

Stability libera modelo de geração de áudio
A Stability.ai anunciou na última semana o Stable Audio Open, ferramenta que permite gerar áudios de até 47 segundos a partir de prompts de texto. Enquanto o Stable Audio, modelo comercial lançado em abril, é voltado para criar músicas de até 3 minutos com estrutura musical coerente, o Stable Audio Open se volta mais para a criação de batidas de bateria, riffs instrumentais, sons ambientes e outras amostras de áudio, com o diferencial de, sendo open source, permitir que cada usuário refine o modelo com suas próprias amostras de áudio. (em Inglês)

Versão 2 do Cookiecutter Data Science é lançada
O Cookiecutter é um framework para estruturação de projetos muito utilizado em Ciência de Dados de forma geral. Agora, sua versão 2 foi anunciada com algumas novidades para atender as nova demandas da área, como MLOps. Vale conferir as atualizações, afinal a primeira versão do Cookiecutter saiu há mais de 8 anos! (em Inglês)

Kwai apresenta modelo de geração de vídeo para competir com Sora
Enquanto a OpenAI não decide se lança ou não o Sora para as pessoas, parece que a Kwai resolveu sair na frente. Seu modelo, chamado de Kling, também consegue criar vídeos em altíssima qualidade a partir de prompts de texto, e já está disponível para os usuários do aplicativo. A má notícia: só está disponível na China. (em Chinês)

DICA DE VÍDEO

Se fazer reports com dashboards já costuma ser um recurso útil, fazer com que esses dashboards sejam criados de forma automatizada então nem se fala, né? Este vídeo, feito pelo pessoal da Posit PBC, ensina a criar dashboards automatizados e dinâmicos utilizando a suite de ferramentas do Posit, R Markdown e Quarto Dashboards. Conteúdo muito interessante para quem quiser se aprofundar nas possibilidades da ferramenta. (em Inglês)

VAGAS DA SEMANA

Remoto

  • 4 anos ou mais de experiência em funções de Ciência de Dados e/ou Machine Learning;

  • Expertise em programação em Python, questões de SQL e frameworks relacionados a Machine Learning;

  • Experiência prévia na área de riscos (fraudes, combate à lavagem de dinheiro e/ou crédito);

  • Excelentes habilidades interpessoais e de comunicação;

  • Proficiência/fluência em inglês (Nota: as entrevistas serão conduzidas em inglês);

  • Experiência em trabalhar com datasets em tempo real (diferencial);

  • Experiência no mercado financeiro (diferencial).

Remoto

  • Diploma avançado em área quantitativa como Estatística, Computação, Engenharias, Economia e correlatas;

  • Experiência no design e análise de experimentos online (como testes A/B) como Cientista de Dados em um time de desenvolvimento de produto;

  • Proficiência em SQL;

  • Experiência em modelagem estatística aplicada em ao menos um pacote de software estatístico (Python, R, etc.);

  • Boa compreensão dos princípios de Estatística e Machine Learning;

  • Forte senso de negócios e produto (capacidade de moldar questões vagas em hipóteses e métricas).

MEME DA SEMANA

DATA VISUALIZATION DA SEMANA

Quando pensamos em animais perigosos para seres humanos, é natural pensarmos em predadores ou animais venenosos. Mas, se formos analisar o número de seres humanos mortos por animais a cada ano, será que isso se verifica na prática? Confira esse Dataviz, feito pelo pessoal do Visual Capitalist com dados do BBC Science Focus, e veja como os animais mais letais podem ser diferentes - e estarem bem mais perto - do que imaginamos. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

Data + AI Summit
10 a 13 de junho - San Francisco, Califórnia, EUA

HackTown 2024 (Data Hackers têm 15% de desconto!)
01 de agosto - Santa Rita do Sapucaí-MG

Big Data Brazil Experience 2024
16 de novembro - São Paulo-SP

AWS Innovate
On-demand - Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?

Pode dar sua opinião sincera...

Login or Subscribe to participate in polls.

Logo