- Data Hackers Newsletter
- Posts
- Esses pacotes Python estão roubando sua senha
Esses pacotes Python estão roubando sua senha
Engenheiros de dados gastam dois dias por semana lidando com data ruim, sugere pesquisa
Fala Data Hackers, prontos para começar a semana lendo mais uma edição da sua newsletter favorita? Essa semana começou com tudo, com várias surpresas no mundo de dados.O nosso destaque dessa edição vai para o estudo que identificou 10 pacotes do Python que injetam código malicioso e pode roubar credenciais de desenvolvedores. Com certeza vale a pena conferir se você usa algum desses pacotes no dia a dia. Além disso, uma grande novidade que vi essa semana foi o lançamento do Stable Diffusion: uma AI de text-to-image, semelhante ao DALL-E e ao Google Imagen, mas que tem um diferencial muito legal: ele é totalmente open-source!Mas não é só isso que você vai conferir na news de hoje. Olha o que ainda teremos nessa edição:
A XConf é a conferência anual da Thoughtworks, criada por tecnologistas para tecnologistas que se preocupam profundamente com o impacto do software no mundo. O evento é realizado em várias regiões em todo o mundo, contando com um grupo diverso de palestrantes e cobrindo uma ampla gama de temas. Junte-se a nós no dia 17 de agosto de 2022 para saber em primeira mão como nossas lideranças de pensamento trabalham colaborativamente para criar, evoluir e inovar para tornar a tecnologia melhor.Separamos alguns temas imperdíveis que vão rolar nessa edição:
Produtos de dados: entendendo conceitos e aplicações práticas com cases reais - Alyssandra Ruggiero
Data Quality: da teoria à prática. Como implementamos uma estratégia de qualidade de dados - Paloma Ribeiro e Taluna Mendes
Transformando KPIs de negócio em métricas acionáveis pelo time de produto - Thiago Stürmer
Além disso o evento vai contar com um keynote da Rebecca Parsons, CTO Global na Thoughtworks, falando sobre arquitetura evolutiva e um painel com Nina da Hora, Rosi Teixeira,Larissa Santiago e Renata Gusmão debatendo sobre Tecnologias Emergentes e Negócios por um futuro mais justo.Nem preciso falar que é um evento imperdível para quem atua com dados e tecnologia, certo? (em Português)
Essa semana nós anunciamos os vencedores do State of Data Challenge: a competição realizada pelo Data Hackers em parceria com a Bain & Company. Confira abaixo os vencedores que levaram pra casa um Playstation 5, um Oculus Quest 2 VR, e um Monitor portátil da ASUS, respectivamente: 1º lugar: Um caminho para os melhores salários - versão com ML por Luiz Simões 2º lugar: Existe desigualdade de gênero em dados? por Hayala Cavenague 3º lugar: Qual a diferença entre Júnior, Pleno e Sênior? por Nicholas Marino Perdeu a nossa live anunciando os vencedores? Você ainda pode conferir ela clicando aqui! (em Português)
descobriu 10 pacotes Python maliciosos sendo distribuídos no PyPI, o mais famoso repositório de pacotes Python que existe. Tratam-se de pacotes falsos, criados para simular o comportamento de pacotes famosos, mas que injetam malwares na máquina dos desenvolvedores para localizar e enviar credenciais de acesso para usuários maliciosos.
Aparentemente esses pacotes já foram reportados e removidos no PyPI, mas pessoas que já fizeram o download dele anteriormente podem estar sujeito a riscos.
. (em Inglês)
pela empresa Monte Carlo em parceria com a Wakefield Research perguntou a cerca de 300 profissionais de dados sobre meios de trabalho e tendências na vida de engenheiros de dados. Uma das descobertas é que Data Engineers gastam cerca de dois dias na semana apenas lidando com dados de qualidade ruim.
. (em Inglês)
Tá aí uma coisa que eu achava que ia demorar algum tempo pra existir: uma AI tão poderosa quanto o DALL-E, mas que foi feita para ser totalmente open-source. Estou falando do
, criado pela
. Atualmente, eles estão liberando acesso
, mas você pode ter acesso ao
ou
.
Mas, você deve estar pensando: "De que adianta ter o código se eu não tenho uma GPU monstra?". E se eu te falar que
We have got #stablediffusion working on 5.1 Gb VRAM.
🫳🎤— Emad (@EMostaque)
10:51 PM • Aug 11, 2022
? Sim, até aquela sua placa de vídeo que você usa pra jogar Call of Duty deve bastar! (em Inglês)
Redis é umas das minhas fontes de dados favoritas para se trabalhar, devido ao seu grande poder de escala e simplicidade de uso. Se você, assim como eu, tem curiosidade em saber como essa poderosa ferramenta funciona por debaixo dos panos,
explicando ela.(em Inglês)
Finja surpresa: pesquisadores que estão fazendo mal uso de técnicas de Machine Learning estão criando uma crise de reproducibilidade na ciência, em áreas que vão desde medicina a sociologia. Essa matéria da Wired comenta mais sobre o assunto. (em Inglês)
Se você está pensando em trazer Databricks para sua stack de dados, vale a pena ler esse post. Ele traz dicas que vão desde como o Databricks funciona melhor com Delta Lake, até ter um cuidado maior em relação aos custos. Ninguém quer um boletão de 100 mil bidens chegando em casa, né? (em Inglês)
A DeepMind continua nas suas pesquisas e descobertas em proteínas. Uma de suas últimas afirmações está no fato de terem descoberto grande parte da estrutura de praticamente todas as proteínas que a ciência conhece. E eles vão liberar gratuitamente o acesso a esses dados. (em Inglês)
Como criar um jogo estilo Zelda totalmente em PythonQuem me conhece sabe do meu amor por video games, e uma das minhas mais felizes descobertas recentemente foi conhecer o canal Clear Code no Youtube, onde eles ensinam diversas coisas utilizando Python. Uma delas é esse tutorial muito didático de como você pode criar um jogo estilo Zelda em Python! (em Português)
VAGAS DA SEMANA
Experiência em análise de dados
Experiência com ferramentas de BI (ex.: Power BI, Tableau, ou similares);
SQL;
Boa comunicação
Pensamento crítico e analítico.
Experiência em soluções de soluções de arquitetura em Cloud para Dados (AWS ou GCP ou Azure)
Experiência em Ingestão e processamento de dados usando ferramentas modernas (Ex: Apache Spark, Apache Beam, Delta Lake, etc)
Experiência em CI/CD aplicadas a projetos de dados.
Experiência no desenho de solução de sistemas complexos com uso de dados em larga escala;
Conhecimento de técnicas de modelagem de dados e requisitos não funcionais de um sistema;
Conhecimento em abordagens de Governança de Dados;
Conhecimento em gestão de metadados e catálogo de dados;
Experiência em processos de testes e garantia de qualidade;
99% de acerto no conjunto de teste? Nosso modelo! haha
Mais uma visualização incrível da galera do Visual Capitalist trazendo dados sobre o consumo de cerveja ao redor do mundo. Claro que o Brasil representou nesse dado, não é? (em Inglês)
Xconf Brasil17 de Agosto - Evento Gratuito e 100% Online
Data Universe - 5ª Edição08 e 09 de Agosto - Evento Gratuito e 100% OnlineCoalesce: The Analytics Engineer Conference17 a 21 de Outubro - Evento Gratuito e 100% Online
Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso