Vendo as rainhas do pop através das lentes dos dados 📻

Roadmap completo pra se tornar um Machine Learning Engineer

Fala, Data Hacker! Como vocês estão? Essa news tá demais pra quem quer ver casos de extração de muita informação de valor de dados. De textos de todos os tipos, como artigos do Medium, letras de música pop, gráficos e outras viz de ferramentas de BI, essa edição trouxemos MUITO conteúdo sobre casos de como cientistas de dados feras transformaram letras e palavras em lindas e relevantes análises.Começando pelo post incrível do Adauto Braz, analisando as músicas das rainhas do pop internacional, até o artigo do Giovani Ferreira, fazendo um PCA pra agrupar textos de uma publicação muito famosa do Medium em assuntos diferentes, temos só feras aqui nessa edição!E mais: como o StackOverflow migrou 40Tb de dados na raça, usando Docker pra produtizar ML direto do Slack, vagas muito tops e um case muito massa de um banco digital revolucionando sua arquitetura de dados. Bora?!

Você pode até achar que não, mas as rainhas do pop Beyoncé, Taylor Swift, Ariana Grande, Rihanna, Lady Gaga, Mariah Carey, Britney Spears e Katy Perry tem muita originalidade em suas músicas, mesmo compartilhando das mesmas referências, como Madonna. Toda a cena pop internacional deve muito a essas popstars que influenciaram e ainda influenciam a música mundial com suas produções, performances e composições.Neste post INCRÍVEL do Data Hacker Adauto Braz pro Towards Data Science, você vai ver uma análise de sentimentos detalhada em todas as músicas de cada diva para entender como cada uma se diferenciou das outras pra alcançar o topo das paradas da música pop mundial. (em Inglês)

Uma dica do Data Hacker Humberto Pereira no nosso Slack, esse repositório do github traz um guia sensacional pra você aprender tudo sobre Machine Learning Engineering! Com todos os conceitos de computação, programação paralela, linguagens de programação, cloud computing e, é claro, Machine Learning, você pode seguir esse mapa lindo pra montar seu guia de estudos. Recomendadíssimo pra iniciantes e avançados nesse assunto também!

(em Inglês)

 

Uma das coisas mais legais de NLP é poder avaliar milhares de textos sem precisar ler cada um deles. E foi justamente isso que o Giovani Ferreira fez: "leu" mais de 3900 textos da publicação New Order do Medium para ver quais são seus principais temas e assuntos.

Num post muito descontraído e cheio de referências, Giovani mostra o passo a passo de extração das tags dos textos até a decomposição de dimensionalidade para chegar em uma bela análise do conteúdo dos textos do blog. Muito legal! (em Português)

Que o pessoal do StackOverflow - os que mantêm o site - são "devs-raiz" você já deve ter ouvido falar. Mas e se eu te trazer essa história do DBA Taryn Pratt que demorou 11 meses pra migrar 40 Tbs de dados entre instancias de SQL Server?! É isso mesmo! Nada de ligar pra Cloud e pedir uma migração gastando milhares de dolares não, Taryn fez tudo na mão, script a script, durante meses! Tudo tá registrado, inclusive os scripts que ele usou, nesse post sensacional. (em Inglês)

Esse belo post da UX Collective expõe 2 abordagens bem comuns de toda ferramenta de BI: Chart-first - quando você tem as visualizações a priori, de depois os filtros, e o Data-first - quando você precisa colocar os filtros e parâmetros da visualização primeiro (ou no topo) antes de ir para a análise. Muito legal ver como que uma diferença simples impacta diretamente na experiência do usuário ao ver análises gráficas. (em Inglês)

Imagina você poder treinar seus modelos com um comando pra um bot no Slack? É isso que o pessoal do CTO.ai conta pra gente nesse post. Dividido em 2 videos, o post expõe como eles enveloparam suas soluções no Docker pra poder integrar o Slack com o ECS e usando a própria tool CTO.ai. Show de bola! (em Inglês)

VAGAS DA SEMANA

  • Ferramentas Big Data: Hadoop, Spark, Kafka, etc.

  • Bancos de dados SQL e NoSQL

  • Ferramentas de data pipeline e gestão de workflow: Azkaban, Luigi, Airflow, etc.

  • Cloud Services - Google Cloud

  • Linguagens de programação Python / Java / Scala

  • Domínio em Google Cloud e Hadoop.

  • Python: sklearn e R: caret, mlr

  • Banco de Dados, modelagem e SQL

  • Conhecimento de engenharia de software

  • Conhecimento em técnicas de estatística

Na semana passada o Meetup de Engenharia de Dados de BH trouxe um case muito bacana: Como o Banco Inter, saiu de uma arquitetura totalmente tradicional para implementar o que há de mais moderno em Engenharia de Dados hoje em dia. Bruno Worisch, Arquiteto de Dados e André Ferreira, Engenheiro de Dados do banco dão todos os detalhes no video que tá disponível no YouTube! (em Português)

Do nosso amigo José Ahirton. Uma preocupação bem pertinente hehehe

Os gastos dos brasileiros no exterior e dos estrangeiros no BrasilCom essa alta do dólar, não é só você que está sofrendo porque não consegue achar um bom preço pro seu celular novo. Num post lindo como sempre, o Nexo Jornal trouxe vários gráficos mostrando como os gastos de brasileiros fora do BR caíram tanto. Porém os gastos de estrangeiros por aqui, apesar de terem sofrido queda na pandemia já demonstra uma retomada.  (em Português)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

17 de agosto de 2020 - Evento online gratuito

18 de agosto de 2020 às 19:00 - Evento online gratuito

24 e 25 de Agosto de 2020 - Evento online gratuito

30 de Novembro a 18 de Dezembro de 2020 - Evento online gratuito