• Data Hackers Newsletter
  • Posts
  • 180 projetos de Data Science e Machine Learning para você estudar, se inspirar e chorar 😂

180 projetos de Data Science e Machine Learning para você estudar, se inspirar e chorar 😂

Data Scientists precisam aprender a escrever códigos (e bons códigos)

 

E aí Data Hackers! Mais uma semaninha começando repleta de conteúdos relacionados ao mundo dos dados!Para início de conversa, se você ainda não entrou de cabeça na área de dados, vamos acabar de vez com as suas desculpas de que não sabe por onde começar e que não sabe direito como aplicar técnicas de Data Science e Machine Learning na sua área de atuação. O primeiro artigo que daremos destaque nessa newsletter agrupou "apenas" 180 projetos práticos na área de DS e ML, englobando centenas de aplicações diferentes em projetos com distintos níveis de dificuldade.Mas, como você já sabe, não vamos parar por aí, hoje é mais um dia de "surra de conhecimento" e além dos 180 projetos vamos apresentar um framework para decisões técnicas arquiteturais e mostrar o motivo pelo qual todo cientista de dados precisa aprender a escrever códigos (códigos com alta qualidade por favor). Para não perder a chance de polemizar vamos a um assunto que está cada vez mais em alta, é mesmo verdade que a profissão de Cientista de Dados será extinta em menos de 10 anos? Além disso vamos falar de árvores de decisão, dicas de pandas, competições de dados, vagas de emprego, eventos online e muito mais.

 

O destaque de hoje foi uma dica do Data Hacker Rodrigo teoria em nosso canal do Slack.

(Dica: se você ainda não está no nosso slack

, você terá acesso gratuitamente a alguns dos maiores especialistas da área de dados no Brasil).

Em um dos seus posts de maior sucesso no ano, Aman Kharwal do Coders Camp resolveu reunir 180 projetos na área de Machine Learning e Data Science. Sim, foi isso mesmo que você ouviu 180 projetos em diferentes áreas do conhecimento, 180 projetos para servir de exemplo, referência e por quê não... inspiração?

Tem projetos do mercado financeiro, mercado imobiliário, de mineração, marketing, biologia, política, área da saúde, mercado automotivo, astronomia e outras áreas do conhecimento.

Falando mais especificamente das técnicas utilizadas tem projetos de classificação, NLP, Deep Learning, detecção de imagens, time series, grafos, predição de doenças, text generation, sistemas de recomendação, visualização de dados e muito mais.

A dica que eu deixo pra você é dar uma lida no artigo, salvar nos favoritos e passar pelos projetos que você ache mais interessantes, essa coleção de projetos pode servir como exemplo para a solução de problemas que você já vivencia no dia a dia mas também pode ser aquela inspiração que faltava para ampliar seu portfólio de análises. (em Inglês)

 

Para começar com a polêmica do dia resolvemos trazer um post que está dando o que falar na comunidade de dados internacional.

Afinal, com um volume cada vez maior de modelos de Machine Learning em produção, o autor enxerga que a necessidade de que Cientistas de Dados aprendam a fazer códigos de qualidade é cada dia mais evidente. Se antes bastava saber fazer um script, no cenário atual o DS precisa conhecer boas práticas em programação, testes, code review e muito mais... E você, como vê essa necessidade?   (em Inglês)

 

Nosso co-fundador Allan Sene decidiu compartilhar como criou um processo para tomar decisões mais democráticas, bem embasadas em empirismo e dados.

Quem atua com projetos complexos de dados por diversas vezes precisa tomar decisões de arquitetura de software ou de sistemas que vão ficar por anos e, até, décadas dentro do parque tecnológico da organização. Diante desse cenário qual a melhor maneira de tomar essa decisão de forma a minimizar o risco envolvido nela?

Pensando nisso, ele e sua equipe criaram um framework para apoiar nesses momentos que pode ser encontrado

.  (em Português) 

Mikhail Mew fez o post polêmico da vez. Será que daqui a 10 anos ainda teremos cientistas de dados nas empresas, na mesma forma que conhecemos hoje?. Apesar do sensacionalismo (lembre-se que ainda temos programadores Cobol atuando em 2021 e novas vagas continuam sendo abertas) o post apresenta uma reflexão bem interessante sobre o tema. (em Inglês)

O arquiteto de dados Diego Lopes resolveu fazer um compilado de referências sobre o mundo de engenharia de dados, mais especificamente sobre arquiteturas modernas de dados. O resultado ficou muito legal e merece ser compartilhado! (em Português)

Cansado do visual básico do DataFrame no Pandas? E se você pudesse fazer formatações personalizadas utilizando técnicas de Dataviz direto no DF? Esse post mostra que isso é possível e ainda tem um passo a passo com várias dicas de formatações visualmente interessantes. (em Inglês)

O Data Hacker Anello resolveu compartilhar com a comunidade um artigo onde mostra os detalhes por trás de uma árvore de decisão. Ótimo material para quem quer entender mais sobre o tema. (em Português)

O tio Andrew NG não para de trazer novidades para a comunidade! Dessa vez a novidade veio em forma de competição e essa parceria da DeepLearning.AI e Landing AI tem uma abordagem muito diferente das competições tradicionais. Na maioria das competições o objetivo é criar um modelo de alta performance a partir de um dataset, mas na Data-Centric AI competition o objetivo é o inverso, os participantes tem que otimizar o dataset para tentar melhorar os resultados de um modelo pré-estabelecido. (em Inglês)

Não, você não leu errado... O Jython é uma implementação do Python em Java que facilita a forma como desenvolvedores Java utilizam scripts Python dentro de aplicações Java. (em Inglês)

Kizzy + Paulo Vasconcellos: Tendências da área de DadosSerá que os Cientistas de dados serão substituídos por Inteligência Artificial?Dessa vez o Paulo Vasconcellos nosso co-fundador foi o convidado do canal Programação Dinâmica para um bate papo com a Kizzy sobre um assunto bem quente: Tendências da área de dados. Nessa conversa eles debateram sobre assuntos interessantes como o uso do GPT-3, ética no uso das novas técnologias e muito mais. Vale a pena conferir, o vídeo ficou incrível! (em Português)

VAGAS DA SEMANA

Nossos parceiros da DataSprints estão com mais de 10 vagas abertas para diversas posições na área de dados, essa é sua chance de trabalhar em um projeto muito audacioso e referência de Modern Data Stack! 

  • Experiência com Data Science/Engineering;

  • Experiência com Sistemas Distribuídos;

  • Habilidades em programação com SQL e Python;

  • Experiência com Cloud Computing, preferencialmente AWS;

  • Experiência com Linux;

  • Experiência com Apache Spark;

  • Experiência com plataformas de Stream de Dados (Kafka, Kinesis);

  • Escrever códigos reutilizáveis e construir pipelines de dados resilientes em ambientes em nuvem;

  • Estatística;

  • Machine Learning;

  • Data viz;

  • Experiência com banco de dados SQL;

  • Experiência com sistema de controle de versões (Git);

  • Conhecimento teórico de conceitos de Data Lake e DW;

Sabia que 47% do território brasileiro ainda pertence ao estado? Se ficou curioso para entender melhor como se distribuem as terras públicas brasileiras esse post é para você. Nesse levantamento geográfico é possível entender onde estão essas terras, quais delas são unidades de conservação, assentamentos, áreas indígenas e terras não destinadas.Fonte: instagram @geografiageral

08 a 29 de Junho - Evento Gratuito e 100% Online (corre que já está acabando...)

01 de Julho 20h - Evento Gratuito e 100% Online

05 de Julho - Evento Gratuito e 100% Online

(Participação do Allan Sene co-founder do Data Hackers)

08 a 16 de Julho - Evento Gratuito e 100% Online

17 a 19 de Agosto de 2021 -  Evento Pago e 100% Online