Esses pacotes Python estão roubando sua senha

Engenheiros de dados gastam dois dias por semana lidando com data ruim, sugere pesquisa

Fala Data Hackers, prontos para começar a semana lendo mais uma edição da sua newsletter favorita? Essa semana começou com tudo, com várias surpresas no mundo de dados.O nosso destaque dessa edição vai para o estudo que identificou 10 pacotes do Python que injetam código malicioso e pode roubar credenciais de desenvolvedores. Com certeza vale a pena conferir se você usa algum desses pacotes no dia a dia. Além disso, uma grande novidade que vi essa semana foi o lançamento do Stable Diffusion: uma AI de text-to-image, semelhante ao DALL-E e ao Google Imagen, mas que tem um diferencial muito legal: ele é totalmente open-source!Mas não é só isso que você vai conferir na news de hoje. Olha o que ainda teremos nessa edição:

A XConf é a conferência anual da Thoughtworks, criada por tecnologistas para tecnologistas que se preocupam profundamente com o impacto do software no mundo. O evento é realizado em várias regiões em todo o mundo, contando com um grupo diverso de palestrantes e cobrindo uma ampla gama de temas. Junte-se a nós no dia 17 de agosto de 2022 para saber em primeira mão como nossas lideranças de pensamento trabalham colaborativamente para criar, evoluir e inovar para tornar a tecnologia melhor.Separamos alguns temas imperdíveis que vão rolar nessa edição:

  • Produtos de dados: entendendo conceitos e aplicações práticas com cases reais - Alyssandra Ruggiero

  • Data Quality: da teoria à prática. Como implementamos uma estratégia de qualidade de dados - Paloma Ribeiro e Taluna Mendes

  • Transformando KPIs de negócio em métricas acionáveis pelo time de produto - Thiago Stürmer

Além disso o evento vai contar com um keynote da Rebecca Parsons, CTO Global na Thoughtworks, falando sobre arquitetura evolutiva e um painel com Nina da Hora, Rosi Teixeira,Larissa Santiago e Renata Gusmão debatendo sobre Tecnologias Emergentes e Negócios por um futuro mais justo.Nem preciso falar que é um evento imperdível para quem atua com dados e tecnologia, certo? (em Português)

Essa semana nós anunciamos os vencedores do State of Data Challenge: a competição realizada pelo Data Hackers em parceria com a Bain & Company. Confira abaixo os vencedores que levaram pra casa um Playstation 5, um Oculus Quest 2 VR, e um Monitor portátil da ASUS, respectivamente:  1º lugar: Um caminho para os melhores salários - versão com ML  por Luiz Simões 2º lugar: Existe desigualdade de gênero em dados?  por Hayala Cavenague 3º lugar: Qual a diferença entre Júnior, Pleno e Sênior?  por Nicholas Marino   Perdeu a nossa live anunciando os vencedores? Você ainda pode conferir ela clicando aqui! (em Português)

descobriu 10 pacotes Python maliciosos sendo distribuídos no PyPI, o mais famoso repositório de pacotes Python que existe. Tratam-se de pacotes falsos, criados para simular o comportamento de pacotes famosos, mas que injetam malwares na máquina dos desenvolvedores para localizar e enviar credenciais de acesso para usuários maliciosos.

Aparentemente esses pacotes já foram reportados e removidos no PyPI, mas pessoas que já fizeram o download dele anteriormente podem estar sujeito a riscos.

. (em Inglês)

 

pela empresa Monte Carlo em parceria com a Wakefield Research perguntou a cerca de 300 profissionais de dados sobre meios de trabalho e tendências na vida de engenheiros de dados. Uma das descobertas é que Data Engineers gastam cerca de dois dias na semana apenas lidando com dados de qualidade ruim.

. (em Inglês)

 

Tá aí uma coisa que eu achava que ia demorar algum tempo pra existir: uma AI tão poderosa quanto o DALL-E, mas que foi feita para ser totalmente open-source. Estou falando do

, criado pela

. Atualmente, eles estão liberando acesso

, mas você pode ter acesso ao

ou

.

Mas, você deve estar pensando: "De que adianta ter o código se eu não tenho uma GPU monstra?". E se eu te falar que

? Sim, até aquela sua placa de vídeo que você usa pra jogar Call of Duty deve bastar! (em Inglês)

Redis é umas das minhas fontes de dados favoritas para se trabalhar, devido ao seu grande poder de escala e simplicidade de uso. Se você, assim como eu, tem curiosidade em saber como essa poderosa ferramenta funciona por debaixo dos panos,

explicando ela.(em Inglês)

Finja surpresa: pesquisadores que estão fazendo mal uso de técnicas de Machine Learning estão criando uma crise de reproducibilidade na ciência, em áreas que vão desde medicina a sociologia. Essa matéria da Wired comenta mais sobre o assunto. (em Inglês)

Se você está pensando em trazer Databricks para sua stack de dados, vale a pena ler esse post. Ele traz dicas que vão desde como o Databricks funciona melhor com Delta Lake, até ter um cuidado maior em relação aos custos. Ninguém quer um boletão de 100 mil bidens chegando em casa, né? (em Inglês)

A DeepMind continua nas suas pesquisas e descobertas em proteínas. Uma de suas últimas afirmações está no fato de terem descoberto grande parte da estrutura de praticamente todas as proteínas que a ciência conhece. E eles vão liberar gratuitamente o acesso a esses dados. (em Inglês)

Como criar um jogo estilo Zelda totalmente em PythonQuem me conhece sabe do meu amor por video games, e uma das minhas mais felizes descobertas recentemente foi conhecer o canal Clear Code no Youtube, onde eles ensinam diversas coisas utilizando Python. Uma delas é esse tutorial muito didático de como você pode criar um jogo estilo Zelda em Python! (em Português)

VAGAS DA SEMANA

  • Experiência em análise de dados

  • Experiência com ferramentas de BI (ex.: Power BI, Tableau, ou similares);

  • SQL; 

  • Boa comunicação

  • Pensamento crítico e analítico.

  • Experiência em soluções de soluções de arquitetura em Cloud para Dados (AWS ou GCP ou Azure)

  • Experiência em Ingestão e processamento de dados usando ferramentas modernas (Ex: Apache Spark, Apache Beam, Delta Lake, etc)

  • Experiência em CI/CD aplicadas a projetos de dados.

  • Experiência no desenho de solução de sistemas complexos com uso de dados em larga escala;

  • Conhecimento de técnicas de modelagem de dados e requisitos não funcionais de um sistema;

  • Conhecimento em abordagens de Governança de Dados;

  • Conhecimento em gestão de metadados e catálogo de dados;

  • Experiência em processos de testes e garantia de qualidade;

99% de acerto no conjunto de teste? Nosso modelo! haha

Mais uma visualização incrível da galera do Visual Capitalist trazendo dados sobre o consumo de cerveja ao redor do mundo. Claro que o Brasil representou nesse dado, não é? (em Inglês)

Xconf Brasil17 de Agosto - Evento Gratuito e 100% Online

Data Universe - 5ª Edição08 e 09 de Agosto - Evento Gratuito e 100% OnlineCoalesce: The Analytics Engineer Conference17 a 21 de Outubro - Evento Gratuito e 100% Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso