• Data Hackers Newsletter
  • Posts
  • Computer Vision: Entenda o que é, como funciona e como você pode utilizar essas técnicas no trabalho 💻👀

Computer Vision: Entenda o que é, como funciona e como você pode utilizar essas técnicas no trabalho 💻👀

Veja a treta do algoritmo do Twitter ao enquadrar pessoas nas thumbnails de posts

Fala Data Hackers! Preparados uma semana que já começa com uma polêmica?O assunto principal de hoje, e tema do mais novo episódio do nosso podcast, é a Visão Computacional, algoritmos que tornam as máquinas capazes de  analisar imagens reconhecendo objetos e movimentos, possibilitando inclusive a alteração e manipulação de imagens de forma automática.Por coincidência esse também é o tema da mais nova polêmica do momento, pois um dos tweets mais compartilhados nesse final de semana mostra que um algoritmo de seleção de imagens do Twitter, com o objetivo de escolher a "melhor parte da foto" para dar destaque no post, apresentava uma forte tendencia a priorizar fotos de pessoas brancas. Esse fato levou a internet a se perguntar: "Os algoritmos são racistas?"  Mas não é só isso, além de discutir esse ponto polêmico e de mostrar formas de evitar que ele aconteça vamos falar sobre como utilizar DS em projetos de análise geoestatística, discutir sobre o estado da arte de algoritmos de Deep Learning (acurácia + interpretabilidade), dar dicas das melhores práticas para conduzir projetos de Data Science e Machine Learning, mostrar técnicas para ser mais produtivo com o Pandas, além de dar dicas de eventos online na área de dados e vagas de emprego.Vamos logo pois tem muitos assuntos relevantes para o início de mais uma semana!

Computer Vision — Visão Computacional, em tradução livre — é uma das áreas de processamento de imagem e AI que mais chamam a atenção de iniciantes na área, e até mesmo profissionais e leigos, afinal, ela é o motor de propulsão de algumas das inovações mais incríveis como carros autônomos, diagnósticos médicos e até mesmo os filtros do Instagram (que não vieram para resolver problemas críticos da humanidade mas mesmo assim nós adoramos).

Para nos ajudar nesse papo, convidamos Kizzy Terra e Hallison Paz, do canal Programação Dinâmica no Youtube pra contar como é o dia a dia deles com essa tecnologia, e como podemos começar a utilizá-la em nossos projetos.

Obs: Lembrando que você pode encontrar o podcast do Data Hackers no SpotifyiTunesGoogle PodcastCastbox e muitas outras plataformas.

Desde 2018 o Twitter lançou um algoritmo que prometia melhorar a experiência dos usuários e se eu entendi direito funcionava mais ou menos assim: Não importa o tamanho da imagem que estiver no seu post (ou no link de destino), a aplicação vai selecionar a "melhor parte da imagem" e criar uma thumbnail para tentar maximizar o número de clicks em seu post.

O problema é que o usuário @bascule fez um experimento com essa tecnologia que mostrou que esse algoritmo tinha uma forte tendencia a dar preferencia para as pessoas brancas no momento de selecionar a parte de destaque na imagem. 

Esse assunto aconteceu a pouco tempo, mas parece que pessoas que trabalham no Twitter inclusive já se manifestaram,

.

(em Inglês)

 

Agora que você já entendeu melhor a "treta dos algoritmos preconceituosos" é muito importante saber quais as melhores práticas para evitar que isso aconteça, sendo assim trouxemos esse post que vai a fundo nesse problema e apresenta políticas e melhores práticas que os profissionais de dados devem seguir para tentar evitar que isso volte a acontecer. (em inglês)

Esse assunto é extremamente necessário, portanto indicamos outros posts que vão te ajudar a entender os viéses e como evitá-los:

Em problemas simples costumam aparecer soluções que, de tão eficientes, passam a parecer óbvias. Pensando nisso o Data Hacker Arthur Lamblet Vaz comparou 9 estratégias para filtrar um data frame utilizando o Pandas e mostrou que um simples detalhe pode tornar seu script muito mais eficiente quando o volume de dados aumenta. (em Português)

Nesse post você vai entender que para ter mais resultados em projetos de dados é fundamental compreender bem o ciclo de vida de Data Science e planejar muito bem cada uma das etapas. (em Inglês)

Uma dos maiores desafios dos avanços dos modelos de Deep Learning para a tomada de decisão nas empresas é o trade-off entre acurácia e interpretabilidade do modelo. Esse artigo mostra que com o avanço dos modelos e da tecnologia o sonho de se ter um modelo que atenda aos dois critérios está cada vez mais próximo. (em Inglês)

Analisar dados geográficos é sempre um desafio, e se além dos números você precisar de uma boa visualização essa tarefa pode se tornar ainda mais complexa. Pensando nisso a equipe do Curso-R partiu de uma pergunta simples, "Qual a capital de um país que se encontra mais distante de Brasília?", para mostrar passo a passo como se trabalhar com análises de dados geográficos no R com direito a uma plotagem 3D incrível. Como de costume o post inclui todos os scripts no R para você reproduzir esse estudo. (em Português)

VAGAS DA SEMANA

  • Ferramentas de visualização de dados (Tableau/Splunk/Power BI)

  • Limpeza e preparação de dados

  • Conhecimentos em SQL

  • Experiência em engenharia de dados ou trabalhando com sistemas distribuídos

  • Conhecimento em ETL

  • Experiência em tecnologias de Big Data (Hadoop, Spark, Kafka, etc)

  • SQL e NoSQL

  • Experiência em plataformas Cloud

Dica do Data Hacker e community manager Marlesson no nosso Slack.

Entenda como as queimadas espalham resíduos de fumaça por diferentes continentes do mundoSe você acompanha os noticiários deve ter visto que além do Pantanal Mato-grossense no Brasil, outras regiões do mundo também estão sofrendo com os incêndios, como é o caso da costa oeste dos Estados Unidos. Para ir mais a fundo no tema trouxemos essa visualização de dados incrível criada pela Reuters que mostra como os incêndios podem levar resíduos até mesmo para outros continentes.  (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

7 a 22 de Outubro de 2020

19 a 22 de Outubro de 2020 - Evento online gratuito

30 de Novembro a 18 de Dezembro de 2020 - Evento online gratuito