A Google tem melhores algoritmos, ou só mais dados?

Os 5 tipos de pessoas que visualizam dados Como criar uma hipótese

Seja muito bem-vindx a mais uma newsletter do Data Hackers! Nessa edição mais linda que marmita com três bifes, nós iremos falar sobre como ter dados de qualidade as vezes é muito melhor que qualquer algoritmo parrudo (nas palavras do nosso senhor e salvador Peter Norvig). Além disso, vamos falar sobre PDF (Probabilistic Density Function); bibliotecas para te ajudar a interpretar modelos; e os tipos de usuários de visualização de dados. Bora!

Nosso agradecimento a todos os Data Hackers que compareceram a Campus Party Goiás que rolou na última semana, em especial a Arthur Lacerda, Breno OliveiraMatheus BatistaJhon Lucas, Wanderson Marques, Allan AgnerAntônio FlávioVictor BertoldoLuiz SimonardVitor Salgado, Rodrigo SouzaVinicius SartoriIgor Rachid, e ao nosso querido Community Manager Marlesson Santana. Obrigado por nos ajudar a divulgar a comunidade e fazer desse nosso Brasilzão uma referência em Data Science! Vocês são incríveis!

Em 2016, Peter Norvig (Diretor de Pesquisa da Google) respondeu a uma questão postada no Quora. Nela, é questionado se a Google tem algoritmos melhores, ou "apenas" mais dados. A resposta de Norvig - embasada em sua própria experiência e citando um paper escrito por Michelle Banko e Eric Brill, da Microsoft - revela que, de fato, ter dados com mais qualidade tende a gerar mais resultados que mudar de um algoritmo para outro. Além de mais argumentos sobre o assunto, Peter termina com uma reflexão: "...AI pode ser o que faz seu produto diferente e atraente... Mas, a maioria de softwares de IA são os bons e velhos desenvolvimento de produto e engenharia de software (em Inglês).

Nesse post feito pelo pessoal da Nightingale, eles identificam os tipos de usuários que consomem visualização de dados. Esse é um post excelente para entender que tipo de visualização criar para cada um desses indivíduos, que vão desde os Decisores (pessoas que precisam de dados acionáveis e de rápida interpretação) até aqueles que consomem visualização para engajar e entender melhor uma história. (em Inglês)

 

Muita das vezes, o trabalho de um cientista de dados é o de realizar testes estatísticos para validar hipóteses. Mas, como devemos criar nossas hipóteses, afinal de contas? Nesse post da Head de Decision Intelligence do Google, Cassie Kozyrkov, ela nos ensina como podemos começar essa etapa crucial para respondermos nossas perguntas, sejam elas de negócio ou não. (em Inglês)

A Engenheira Pesquisadora da Microsoft, Aerin Kim, explica nesse completo artigo porque devemos parar de achar que Funções de Densidade de Probabilidade é... Probabilidade! O principal argumento de Kim é de que a função pode retornar um valor maior que 1, sendo que o valor que uma probabilidade pode ter é entre 0 e 1. Mas, é claro que não é só isso. Confira! (em Inglês)

Aquela velha discussão de que modelos precisam ser explicados e interpretáveis sempre pipoca por aqui no Data Hackers. Dessa vez, o pessoal do KDNuggets, uma das maiores referências em Data Science no mundo (e um dos sites mais feios que já vi na vida), trouxe uma lista de bibliotecas que podemos utilizar para entender como nossos modelos fazem decisões. (em Inglês)

Mario Filho: Séries temporaisO canal do Mario Filho (Kaggle Grandmaster e Community Manager no DH) traz uma série de vídeos com dicas para quem quer tirar melhor proveito de competições de Machine Learning. Em seu último vídeo, ele ensina como criar modelos de séries temporais para prever preço de combustíveis no Brasil (clique aqui para acessar a primeira parte desse tutorial). (em Português)

VAGAS DA SEMANA

  • SQL;

  • Desenvolvimento de dashboards;

  • Inglês;

  • Python

  • Ensino Superior completo;

  • +4 de experiência como Data Analyst;

  • SQL;

  • Familiaridade com stack AWS;

  • Python ou R

Simulador de adoção de crianças no BrasilO pessoal do Estadão fez um trabalho incrível ao criar essa história mostrando o desafio de adotar crianças no Brasil. Através de um algoritmo criado pela equipe, eles simularam quanto tempo uma criança demoraria para ser adotada no Brasil com base em suas características. Vale lembrar que os códigos utilizados estão disponíveis para reprodução. (em Português)

PRÓXIMOS EVENTOS E MEETUPS

17 de setembro de 2019

DB1 Global Software - Maringá/PR - Gratuito

15 de outubro de 2019

Gratuito - São Paulo/SP

18 - 20 de novembro de 2019

UFBA - Salvador/BA

01 - 02 de novembro de 2019

R$ 765,00 por dia - Centro de Convenções Rebouças - São Paulo/SP