Spark, Mapas e como não usar Random Forest

Nuvem de palavras: se não pode contra elas, vamos melhorá-las

Seja muito bem-vindo a mais uma newsletter do Data Hackers! Essa semana nós iremos falar sobre como você pode evitar aprender Spark do jeito errado, como investigar modelos de Machine Learning e até entender como a Internet está perdendo a memória. Vamos lá?

A medida que a adoção e demanda de tecnologias de computação distribuída como Spark aumenta, é normal que profissionais de dados comecem a se especializar nela. O problema é que, como em muitos outros cursos, alguns cursos e tutoriais introdutórios ensinam práticas não tão performáticas para entusiastas e profissionais da área.

Nesse post do LuizaLabs, Pedro Pichatelli lista e desmistifica alguns dos erros mais comuns encontrados. (Português)

Random Forest geralmente é um dos métodos ensemble mais utilizados por praticantes de Machine Learning. Sua facilidade de uso e interpretabilidade geralmente chama a atenção de pessoas desavisadas dos perigos que esse algoritmo pode trazer.

Nesse post de Toma Gulea - Cientista de Dados no Airbnb -, ele lista alguns dos principais problemas e má-interpretações que Random Forests podem trazer, dentre elas, a inclinação a overfitting. (em Inglês)

 

Wordclouds e gráficos de pizza tem batalhado fortemente para se tornarem as piores formas de visualizações de dados do mundo.  Contudo, talvez nem tudo esteja perdido, pelo menos para as nuvenzinhas.

Nesse post de Marti Hearst - professor da UC Berkeley - ele mostra algumas técnicas que podem ser aplicadas às nuvens de palavras para deixá-las mais atrativas, como clusterização, subdivisões visuais, dentre outras. (em Inglês)

Visualizações de dados envolvendo mapas já são bem conhecidas pelo público. Além de atrativas, com cores saltadas e interatividade, mapas são uma excelente forma de contar histórias. Contudo, como muito bem salientado nesse post de Kenneth Field, um elemento muito importante é esquecido no momento de criar mapas: a cartografia. (em Inglês)

Não são só os seres humanos que sofrem de perda de memória, a Internet também. Sites como redes sociais que já morreram, sites que atualizam e removem informações ou serviços que simplesmente deixam de existir são apenas alguns exemplos sobre como nossos dados (blogs, vídeos, textos, músicas, arquivos) estão suscetíveis a irem para o limbo.

Nesta incrível reflexão feita por Elena Cresci, ela conta como algumas pessoas já foram atingidas por essa ameaça que está muito perto de acontecer para todos. (em Inglês)

Conheça a ferramenta do Google que te permitirá analisar facilmente modelos de Machine Learning sem a necessidade de criar código. Embora esteja disponível apenas para modelos que utilizem TensorFlow, vale muito a pena conferir essa ferramenta que lhe ajudará a entender como seu modelo toma decisões. (em Inglês)

Quando não usar redes neurais e o que fazerNessa palestra sensacional dada pela Dr. Rachael Tatman - Cientista de Dados no Kaggle - ela mostra como podemos fugir do hype que Deep Learning traz ao mercado. Tatman mostra que, mais importante que usar os algoritmos de estado-da-arte disponíveis por aí, devemos fazer uma reflexão sobre esforço, tempo e dinheiro aplicado a nossas soluções. (em Inglês)

VAGAS DA SEMANA

  • Ensino superior completo

  • Python ou R

  • SQL

  • Power BI ou Tableau

  • Spark

  • Experiência como líder

  • Estatística

  • Inglês

  • Ferramentas de Big Data (HIVE, Spark, Hadoop)

  • Ferramentas de BI (Power BI, Tableau)

As cores da modaO The Pudding realizou um estudo com capas de revistas da Vogue dos últimos 19 anos. Durante esse estudo, eles quiserem entender como é a representatividade de mulheres de todas as cores ao longo dos anos de uma das maiores revistas do mundo.  (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

29 - 30 de junho de 2019

WeWork Savassi - Belo Horizonte/MG

24 - 26 de junho de 2019

São Paulo/SP - A partir de R$ 494

*Obs: Esse valor é com o 

 para os Data Hackers!

30 de Junho de 2019

AUDITÓRIO CDI - USP - São Paulo/SP