- Data Hackers Newsletter
- Posts
- Data Science: O que um Cientista de Dados faz, afinal? Entenda perspectivas de salário, habilidades necessárias e como se tornar um desses profissionais
Data Science: O que um Cientista de Dados faz, afinal? Entenda perspectivas de salário, habilidades necessárias e como se tornar um desses profissionais
Saiba de uma vez por todas o que é a área de Data Science, o que um cientista de dados faz, como estão os salários atualmente, as habilidades necessárias e como migrar para essa área
Você tem curiosidade de entender o que é a tão comentada área de Data Science? Já quis saber o que um cientista de dados faz no dia a dia? Tem dúvida se o salário é realmente bom e se ainda vale a pena migrar para essa área? Bom… Se respondeu “sim” pra qualquer uma dessas perguntas, acredito que você veio ao lugar certo! Mas, antes de mais nada deixe eu me apresentar.
Sou Gabriel Lages, um dos fundadores da Data Hackers, a maior comunidade de dados do Brasil. Todas as semanas compartilhamos gratuitamente por email notícias quentes sobre a área de dados. Se você tem interesse em se tornar um profissional de dados, a primeira dica é assinar nossa newsletter.
E a segunda dica é ler esse post até o final para entender melhor sobre a área de Data Science e a profissão de cientista de dados.
O que é Data Science ou Ciência de Dados?
Aclamada na última década como dona da "profissão mais sexy" do mercado, a área de Data Science ou Ciência de Dados começou a ganhar popularidade após um artigo de Thomas H. Davenport e DJ Patil na Harvard Business Review em outubro de 2012.
A profissão, então recém criada, prometia revolucionar o mundo dos negócios usando técnicas científicas e acadêmicas. Com o passar do tempo, a área ganhou destaque e foi muito difundida, contando hoje com centenas de milhares de profissionais espalhados por todo o mundo.
Print do artigo de outubro de 2012 que foi responsável por popularizar a profissão Data Scientist em todo o mundo.
Com o avanço da tecnologia e a aceleração da adoção de inteligência artificial nas empresas, a profissão passou a ser considerada uma das chamadas “profissões do futuro”, com promessas de altos salários e incontáveis oportunidades nas empresas.
Print de artigo da revista época negócios em 2023, citando que analistas e cientistas de dados serão as profissões mais relevantes no Brasil até 2030.
Mas… O que de fato é Data Science ou Ciência de dados?
Existem inúmeras definições sobre o que é Data Science, mas aqui na comunidade Data Hackers gostamos muito de um conceito simples cunhado por Cassie Kozyrkov (ex-Chief Data Scientist no Google):
Imagem da Cassie Kozyrkov e sua definição para Data Science
(Aproveitando o gancho, no canal de Youtube do Data Hackers fizemos um vídeo explicando o que é data Science em 100 segundos. Dá um clique, vale a pena assistir!)
Colocando de maneira prática, no entanto, estamos falando em aplicar técnicas de análise de dados e conhecimentos em probabilidade e estatística para resolver problemas do mundo real, principalmente aqueles relacionados ao mundo dos negócios.
Alguns exemplos dessas técnicas:
Testes de hipóteses;
Modelos de Machine Learning;
Técnicas de Forecasting;
Análises de textos (Natural Language Processing - NLP)
Com o avanço da inteligência artificial, surgem tantas técnicas novas todos os dias que fica até difícil acompanhar. Mas vale saber que no geral essas técnicas combinam habilidades computacionais com técnicas de matemática e estatística, além de um sólido conhecimento do negócio e do problema a ser resolvido.
A imagem abaixo ilustra bem como Data Science passa por uma combinação de conhecimentos e técnicas:
Imagem demonstrando que Data Science é a combinação de Matemática + Computação + Conhecimento do Negócio
O que é um cientista de dados e o que esse profissional faz no dia a dia?
Um cientista de dados é um profissional que combina um vasto conhecimento em estatística e matemática com técnicas computacionais e conhecimentos do negócio para extrair insights de dados estruturados e não estruturados, com o objetivo de assim responder perguntas de negócio e ajudar as empresas a serem mais eficientes.
Algumas das principais responsabilidades de um cientista de dados:
Coleta e Processamento de Dados: Buscar dados de várias fontes (muitas vezes fontes pouco estruturadas como planilhas, sites ou bancos de dados antigos) e preparar esses dados para análise, o que geralmente inclui sua limpeza e transformação.
Análise Exploratória de Dados (EDA): Explorar os dados usando análises estatísticas para descobrir padrões, tendências e anomalias que possam ser relevantes para o problema em questão.
Modelagem e Algoritmos: Desenvolver e aplicar modelos estatísticos e algoritmos de aprendizado de máquina (machine learning) para prever ou classificar resultados com base nos dados.
Visualização de Dados: Criar visualizações para apresentar os resultados das análises de forma clara e eficaz, tentando sempre identificar recursos que permitam aos tomadores de decisão ter mais clareza sobre o problema e suas possíveis soluções.
Interpretação e Comunicação: Traduzir insights técnicos em termos compreensíveis para gestores e equipes de negócios, facilitando a tomada de decisões baseada em dados.
Desenvolvimento de Modelos e Monitoramento: Muitas vezes o Cientista de Dados vai precisar ir além da análise pontual, implementando os modelos e algoritmos em sistemas e monitorando seu desempenho ao longo do tempo para garantir sua eficácia.
Em resumo, o cientista de dados combina habilidades técnicas com conhecimento de negócios para extrair valor dos dados e ajudar as organizações a tomarem decisões melhores.
Existem muitas vagas para cientista de dados? O mercado está crescendo?
Segundo dados do LinkedIn, atualmente existem cerca de 7,7 mil pessoas trabalhando com o cargo de Cientista de Dados no Brasil. Sabemos, no entanto, que esse número pode ser bem maior, pois existem cargos que mesmo tendo nomes diferentes têm atuações muito parecidas a de um cientista de dados no dia a dia. Também segundo o LinkedIn, a profissão de cientista de dados teve um crescimento de 9% de vagas no último ano.
As empresas que mais contratam cientistas de dados são grande bancos como Itaú, Bradesco e Nubank, mas outras empresas também têm grandes times de dados, principalmente as mais voltadas para a tecnologia como as de e-commerce (Mercado Livre, Hotmart, Amazon) e as big techs (Google, IBM e outras).
Na imagem abaixo temos um Raio-X do profissional de dados extraído da pesquisa State of Data Brazil 2023.
Quanto ganha um cientista de dados no Brasil?
Esse é um assunto polêmico que já foi assunto de diversos memes, ainda mais depois que sites e programas de TV chegaram a afirmar que um cientista de dados ganha mais de R$ 25 mil reais por mês.
Reportagem do G1 dando destaque aos altos salários de cientistas e engenheiros de dados
A realidade é muito diferente do que se fala na mídia (como você pode comprovar em sites como Vagas.com ou Glassdoor). Para evitar sensacionalismo e polêmicas, a comunidade Data Hackers realiza anualmente, desde 2019, uma pesquisa chamada State of Data Brazil. Essa pesquisa tem apoio da Bain & Company, e a última edição contou com a participação de mais de 5 mil profissionais do mercado brasileiro de dados.
Os dados da pesquisa permitem afirmar que o salário de um profissional de dados varia entre R$ 4mil (limite inferior de salário de profissionais de nível júnior) e R$ 17 mil (limite superior de salário de profissionais de nível sênior). Lembrando que esses números são estatísticas e certamente existe gente com salário abaixo disso, como estagiários ou profissionais atuando longe dos grandes centros. Também existem profissionais com salários superiores a esses, principalmente profissionais de nível Staff ou Principal, e ainda pessoas que trabalham para empresas do exterior e recebem em dólar.
O gráfico abaixo faz parte da pesquisa State of Data Brazil e mostra um comparativo de como tem sido a evolução dos salários nas principais profissões da área de dados, Analista de Dados (Data Analyst), Cientista de Dados (Data Scientist) e Engenheiro de Dados (Data Engineer).
Gráficos com a evolução salarial de cientistas, analistas e engenheiros de dados. Disponível no site: www.stateofdata.com.br
(Para acessar a versão interativa do gráfico acima, fazer filtros e outros cruzamentos acesse a pesquisa stateofdata.datahackers.com.br ou faça o download dos dados no kaggle para realizar suas próprias análises)
Um cientista de dados precisa fazer faculdade?
Essa é uma dúvida bem comum, e a resposta também foi pensada com base nos dados da pesquisa.
A verdade é que, por ser uma profissão nova, muitas pessoas conseguiram certo sucesso antes mesmo de ter um diploma, e isso levou muitos influenciadores a afirmar que não é necessário fazer faculdade para trabalhar como Cientista de Dados. Ainda assim, a grande maioria dos profissionais que atuam na área de Data Science são formados e muitos deles são pós-graduados.
Segundo os dados da pesquisa State of Data Brazil realizada entre novembro e dezembro de 2023, apenas 2,15% dos cientistas de dados brasileiros de nível júnior não têm (ou não faz) faculdade. Para profissionais de nível pleno, esse número cai para 0,76%.
Olhando por outro lado, mesmo entre os profissionais de nível júnior existe um alto índice de pós-graduados (mais de 25% do total), e entre profissionais de nível sênior a proporção de pós-graduados ultrapassa 74%.
Gráfico da pesquisa State of Data mostrando a proporção de profissionais graduados e pós-graduados em diferentes níveis de senioridade
(Mais uma vez, para acessar a versão interativa do gráfico acima, fazer filtros e outros cruzamentos acesse a pesquisa stateofdata.datahackers.com.br ou faça o download dos dados no kaggle para realizar suas próprias análises)
Bom… Tentando dar uma resposta mais direta, SIM, é possível trabalhar como Cientista de Dados sem fazer faculdade, mas é extremamente improvável que você consiga uma vaga a não ser que tenha sólidos domínios das técnicas e ferramentas, ao ponto de convencer o recrutador e os integrantes da equipe.
Quais os conhecimentos e habilidades essenciais para um cientista de dados?
Ainda segundo a pesquisa State of Data, a maioria dos profissionais que atuam como cientistas de dados passa a maior parte do seu tempo realizando as seguintes tarefas:
Entrar em contato com os times de negócio para participar da definição do problema, identificar a solução e apresentar resultados;
Coletar, limpar e estruturar dados para uso nas análises e modelagem;
Desenvolver modelos de Machine Learning para serem usados em sistemas de produção (produtos de dados);
Essas tarefas exigem uma gama de habilidades que vão desde o soft-skills como comunicação, negociação, tomada de decisão, até hard-skills como processamento de dados e habilidades de programação, além de conhecimentos avançados em matemática e estatística.
De uma forma mais geral (e resumida), um cientista de dados vai precisar das seguintes habilidades:
Conhecimento em uma linguagem de programação (geralmente Python ou R);
Conhecimento em consultas SQL e processamento de dados;
Conhecimento em Cloud (AWS, GCP, Azure);
Conhecimentos em algoritmos de Machine Learning;
Conhecimentos em técnicas Estatísticas;
Habilidades de comunicação e apresentação;
É claro que essas habilidades podem sofrer variações de acordo com as empresas, a maturidade do mercado e os desafios do momento, mas podemos dizer que essas são habilidades já bem consolidadas entre cientistas de dados.
Uma observação: No período recente, habilidades relacionadas à inteligência artificial, AI Gen e LLMs estão sendo valorizadas em praticamente todas as áreas ligadas à tecnologia, e a Ciência de Dados não ficou de fora disso.
Para ter acesso a pesquisa completa e até mesmo aos dados brutos você pode acessar o site: www.stateofdata.com.br
Quais os passos necessários para se tornar um cientista de dados?
Existem muitos cursos na internet que sugerem trilhas para a formação de um cientista de dados. Se você chegou até essa parte do post, saiba que você já deu um grande passo nessa direção, pois a maioria das pessoas que deseja entrar na área nem mesmo sabe o que um Cientista de Dados faz, e é bem comum confundirem a atuação de um Data Scientist com Data Analyst ou Data Engineer, pensando ser a mesma coisa.
Bom, mas indo para o passo a passo, podemos resumir o caminho em alguns pontos:
Ter um bom entendimento dos diferentes papéis em Dados e entender se Cientista de Dados de fato tem sinergia com o que você busca para sua carreira;
Obter os conhecimentos técnicos (Hard Skills) necessários para atuar nessa função, como Python, SQL, Modelos de ML, Conhecimentos em Estatística, conhecimento em alguma ferramenta/biblioteca de visualização de dados e conhecimentos em Cloud. A maioria dessas habilidades hoje pode ser desenvolvida com o auxílio de cursos online de curta duração e vídeos disponíveis na internet;
Começar a desenvolver habilidades interpessoais (Soft Skills) como a capacidade de entender e quebrar um problema, habilidades de negociação e persuasão, habilidades de comunicação (incluindo Data Storytelling), capacidade de síntese;
Preparar seu currículo e LinkedIn dando foco nas suas principais habilidades relacionadas ao mercado de dados;
Desenvolver um portfólio de dados, tentando destacar projetos que demonstrem que você tem capacidade técnica para resolver problemas de negócios utilizando técnicas de Data Science e Analytics;
Buscar oportunidades na área participando de processos seletivos;
Porém, como falei acima, existem algumas sugestões de Roadmaps na internet, e é sempre importante entender que dificilmente existirá um único Roadmap que atenda todas as necessidades de um profissional ou que precisa ser seguido à risca para que uma pessoa consiga se desenvolver. A realidade é que a área de dados é uma área bem diversa, e cabe a cada profissional entender como direcionar sua formação. E se não fosse assim, seria melhor, afinal, fazer uma faculdade.
Mas pensando em Roadmaps prontos, um bem interessante é o do roadmap.sh (https://roadmap.sh/ai-data-scientist) com foco na carreira de Cientista de Dados, um projeto compartilhado por milhares de profissionais de dados ao redor do mundo (obs: o projeto está em inglês, ok?).
Na imagem abaixo você pode entender melhor a primeira parte do Roadmap:
Repare que a trilha se divide em 8 etapas:
Conhecimentos em Matemática;
Conhecimentos em Estatística;
Conhecimentos em Econometria;
Habilidades de codificação e desenvolvimento de software;
Análise exploratória de dados (EDA);
Conhecimentos em Machine Learning;
Conhecimentos em Deep Learning;
Conhecimentos em MLOps;
Um ponto importante a ser entendido é que essa é uma trilha muito extensa e completa: a maioria dos Cientistas de Dados que eu conheço não dominam todos esses itens e você certamente não precisa se tornar um especialista em tudo isso para só depois procurar uma vaga na área. O caminho mais natural talvez seja escolher alguns desses itens e ir se aperfeiçoando enquanto constrói seu portfólio de análises.
Para dar um exemplo: apesar do que diz o Roadmap, eu particularmente não acredito que seja tão relevante para um Cientista de Dados iniciante ter domínio avançado de Econometria e Deep Learning, embora em algumas áreas de atuação esse conhecimento possa sem dúvida ser um diferencial.
Uma última questão sobre Roadmaps é que o mercado muda muito rápido e é provável que ao longo do tempo novas técnicas de DS ganhem destaque (como conhecimentos em LLMs e AI Generativa, ou até mesmo Prompt Engineering). Mas em todo caso é pouco provável que os conhecimentos apresentados acima se tornem inúteis ou obsoletos, pois representam os alicerces da área de Ciência de Dados. A base tá ali.
Dicas de cursos e livros para cientistas de dados
Bom, estamos chegando ao fim do post, e nessa parte gostaria de deixar algumas dicas práticas de livros, cursos e conteúdos que possam ser úteis para Cientistas de Dados.
Vou separá-los em alguns temas que acredito que sejam bem relevantes para quem está começando:
Análise de Dados - [Livro]: Data Science para Negócios (em português)
Machine Learning - [Curso]: Making Friends with Machine Learning (em inglês)
Inteligência Artificial (Generative AI) - [Curso]: Generative AI for Everyone (em inglês)
Visualização de Dados e Data Storytelling - [Livro]: Storytelling com Dados: um Guia Sobre Visualização de Dados Para Profissionais de Negócios (em português)
Além disso gostaria de listar algumas iniciativas brasileiras bem legais que tem surgido em relação à área de dados:
Contem sempre com a comunidade Data Hackers para continuar avançando na carreira. Nosso objetivo, afinal, é sempre fortalecer e buscar a evolução da comunidade brasileira de dados!