25 ferramentas de dados e o que elas NÃO fazem 🔧

Como usar R e Tidyverse para analisar e visualizar dados

Fala, Data Hacker! Seja bem-vindo a mais uma newsletter. Tava louco para chegar minha vez e compartilhar alguns conteúdos bem interessantes que li recentemente! E um dos que mais curti foi um post mostrando diferentes ferramentas de dados, mas ao invés de focar somente em seus benefícios, ele foca também no que elas não são boas.E mais: como fazer um join de strings da forma correta; o novo paper da OpenAI e coisas que todo desenvolvedor deveria saber sobre bancos de dados.

Geralmente quando procuramos por ferramentas, focamos especificamente no que elas podem fazer, e isso é normal: queremos algo que resolva uma dor nossa. Contudo, é sempre bom saber o que ferramentas não conseguem fazer também, para justamente entendermos suas limitações.

Nesse post do Towards Data Science, Pete Soderling reuniu o resultado de uma conversa com empreendedores e mantenedores de ferramentas open-source e fez apenas duas perguntas para eles: "

O que essa ferramenta faz?

" e "

O que ela não faz?

".

Eu mesmo descobri algumas que não conhecia, e algumas das minhas favoritas foram o

e o

, sendo essa última criada pelo time responsável pelo

, da Uber. (que, infelizmente, ainda está em

early stage

). (em Inglês)

 

A primeira vista, utilizar sinal de adição para juntar strings no Python parece ser uma forma elegante de fazê-lo, certo? Afinal, é fácil de ler e não executa

for loops

. Nada poderia dar errado.

Nesse post de Christopher Tao, ele detalha como que utilizar funções como .join() é capaz de deixar o processo até 4x mais rápido. (em Inglês)

 

O Tidyverse é um dos conjuntos de pacotes mais famosos no R, tendo em seu inventário bibliotecas como ggplot2, readr e purrr. Um dos pontos legais do Tidyverse é que todos os seus pacotes são muito parecidos na forma de serem usados, utilizando design e API em comum.

Nesse post no nosso blog, a Data Hacker

 mostra como é possível utilizá-lo para gerar visualizações interativas de dados de saúde. (em Português)

A OpenAI vira e mexe aparece aqui na newsletter com uma novidade que trazem para o mundo de AI. Essa semana, elas mostraram os avanços que tiveram ao lançar o GPT-3.

Basicamente, trata-se de uma AI que é capaz de resolver tarefas de NLP como Text Generation (Geração de Texto). Para você ter uma ideia, o GPT-3 possui 175 bilhões de parâmetros e é capaz de criar notícias muito bem. 

A título de comparação, o córtex cerebral de um gato tem "apenas" 20x mais sinapses que ele

. Se quiser saber mais um pouco sobre esse modelo, se liga abaixo na nossa indicação de vídeo da semana. (em Inglês)

Quando se fala em ferramentas inovadoras em

trackear

experimentos de Machine Learning e gerenciar o ciclo de vida de um modelo, não tem como pelo menos um desses caras não virem a mente: MLflow e Kubeflow.

A verdade é que são duas tecnologias poderosíssimas que recebem apoio de gigantes da tecnologia como Databricks  (MLflow) e Google (Kubeflow), mas que podem ser utilizadas em diferentes pontos da cadeia de valor de Machine Learning. Nesse post da Servian, Byron Allen utiliza uma divertida analogia para argumentar sobre qual o melhor momento para adotar a tecnologia. (em Inglês)

Há desenvolvedores que são muito bons em databases, mas temos que convir que muitos fazem umas escolhas bem erradas as vezes - estou olhando pra você, MongoDB. A engenheira da Google, Jaana Dogan nos abençoa com os aprendizados que conquistou com os anos em sua carreira sobre o que ela acha que todo desenvolvedor deveria saber sobre bancos de dados. (em Inglês)

VAGAS DA SEMANA

  • Graduação completa

  • SQL

  • Bancos relacionais e NoSQL

  • Python ou Scala

  • Inglês

  • Python ou R

  • SQL

  • Estatística

  • Testes unitários

Se você ainda não conhece, não pode deixar de seguir o canal do Yannic Kilcher no Youtube. Ele é um cara que pega papers das mais recentes descobertas da academia e explica de uma forma muito didática (e as vezes até analisa uns memes). Nesse vídeo, ele explica como funciona o GPT-3 da OpenAI, que mencionei ali em cima. (em Inglês)

Um mapa que te ajuda a entender o risco de contaminação por COVID-19 no seu bairroFaissal Nemer Hajar, estudante de medicina da Universidade Federal do Paraná, criou um mapa que ajuda a entender a probabilidade de contaminação no seu estado e bairro. O algoritmo usado foi validado pela Fiocruz e o Ministério da Saúde, e utiliza informações compartilhadas anonimamente por pessoas que vivem nesses locais. Trata-se de uma iniciativa colaborativa e está recebendo doações pelo PicPay para manter-se de pé. Confira e colabore com esse projeto incrível!  (em Português)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

03 de Junho de 2020 - 19:00

Gratuito - 100% Online - Português

03 de Junho de 2020 - 19:00

Gratuito - 100% Online - Português