Data Hackers Newsletter
Posts
Spark, Mapas e como não usar Random Forest

Spark, Mapas e como não usar Random Forest

Nuvem de palavras: se não pode contra elas, vamos melhorá-las

Data Hackers
May 20, 2019 • Tempo de leitura estimado: 6 minutos

Seja muito bem-vindo a mais uma newsletter do Data Hackers! Essa semana nós iremos falar sobre como você pode evitar aprender Spark do jeito errado, como investigar modelos de Machine Learning e até entender como a Internet está perdendo a memória. Vamos lá?

As armadilhas dos cursos básicos de Spark

A medida que a adoção e demanda de tecnologias de computação distribuída como Spark aumenta, é normal que profissionais de dados comecem a se especializar nela. O problema é que, como em muitos outros cursos, alguns cursos e tutoriais introdutórios ensinam práticas não tão performáticas para entusiastas e profissionais da área.

Nesse post do LuizaLabs, Pedro Pichatelli lista e desmistifica alguns dos erros mais comuns encontrados. (Português)

Como não usar Random Forest

Random Forest geralmente é um dos métodos ensemble mais utilizados por praticantes de Machine Learning. Sua facilidade de uso e interpretabilidade geralmente chama a atenção de pessoas desavisadas dos perigos que esse algoritmo pode trazer.

Nesse post de Toma Gulea - Cientista de Dados no Airbnb -, ele lista alguns dos principais problemas e má-interpretações que Random Forests podem trazer, dentre elas, a inclinação a overfitting. (em Inglês)

Nuvem de palavras: se não pode contra elas, vamos melhorá-las

Wordclouds e gráficos de pizza tem batalhado fortemente para se tornarem as piores formas de visualizações de dados do mundo. Contudo, talvez nem tudo esteja perdido, pelo menos para as nuvenzinhas.

Nesse post de Marti Hearst - professor da UC Berkeley - ele mostra algumas técnicas que podem ser aplicadas às nuvens de palavras para deixá-las mais atrativas, como clusterização, subdivisões visuais, dentre outras. (em Inglês)

Quer dizer que você quer criar um mapa?

Visualizações de dados envolvendo mapas já são bem conhecidas pelo público. Além de atrativas, com cores saltadas e interatividade, mapas são uma excelente forma de contar histórias. Contudo, como muito bem salientado nesse post de Kenneth Field, um elemento muito importante é esquecido no momento de criar mapas: a cartografia. (em Inglês)

Quando a web perde sua memória

Não são só os seres humanos que sofrem de perda de memória, a Internet também. Sites como redes sociais que já morreram, sites que atualizam e removem informações ou serviços que simplesmente deixam de existir são apenas alguns exemplos sobre como nossos dados (blogs, vídeos, textos, músicas, arquivos) estão suscetíveis a irem para o limbo.

Nesta incrível reflexão feita por Elena Cresci, ela conta como algumas pessoas já foram atingidas por essa ameaça que está muito perto de acontecer para todos. (em Inglês)

Investigando modelos de Machine Learning com What-If Tool

Conheça a ferramenta do Google que te permitirá analisar facilmente modelos de Machine Learning sem a necessidade de criar código. Embora esteja disponível apenas para modelos que utilizem TensorFlow, vale muito a pena conferir essa ferramenta que lhe ajudará a entender como seu modelo toma decisões. (em Inglês)

Quando não usar redes neurais e o que fazerNessa palestra sensacional dada pela Dr. Rachael Tatman - Cientista de Dados no Kaggle - ela mostra como podemos fugir do hype que Deep Learning traz ao mercado. Tatman mostra que, mais importante que usar os algoritmos de estado-da-arte disponíveis por aí, devemos fazer uma reflexão sobre esforço, tempo e dinheiro aplicado a nossas soluções. (em Inglês)

VAGAS DA SEMANA

Cientista de dados - 99

Ensino superior completo
Python ou R
SQL
Power BI ou Tableau
Spark

Coordenador de Data Science - Cielo

Experiência como líder
Estatística
Inglês
Ferramentas de Big Data (HIVE, Spark, Hadoop)
Ferramentas de BI (Power BI, Tableau)

As cores da modaO The Pudding realizou um estudo com capas de revistas da Vogue dos últimos 19 anos. Durante esse estudo, eles quiserem entender como é a representatividade de mulheres de todas as cores ao longo dos anos de uma das maiores revistas do mundo. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

Curso de Data Lakes utilizando Power BI e Dremio

29 - 30 de junho de 2019

WeWork Savassi - Belo Horizonte/MG

PAPIs 2019 - Real World ML Stories

24 - 26 de junho de 2019

São Paulo/SP - A partir de R$ 494

*Obs: Esse valor é com o

link de 30% de desconto

para os Data Hackers!

II Simpósio de Inteligência Artificial

30 de Junho de 2019

AUDITÓRIO CDI - USP - São Paulo/SP