A AI que odeia muçulmanos

Cientistas de Dados do Facebook alertaram sobre radicais que invadiram o Capitólio

Fala, Data Hacker. Seja bem-vinda a mais uma newsletter! Você sabem que sempre que tenho a chance de falar sobre o GPT-3 aqui na news, eu falo. E dessa vez não foi diferente, mas agora sobre um assunto preocupante: os viéses que esse tipo de modelo pode ter.Beleza, você já sabe que existem grandes problemas de viéses em modelos de Machine Learning, mas o destaque de hoje não levanta apenas esse ponto, mas provoca a discussão de até onde as empresas veem isso como um problema antes de subir para produção um modelo que irá gerar dinheiro para elas. Uma discussão que nós, como profissionais e entusiastas de dados precisamos fazer cada vez mais para criar soluções de inteligência artificial mais justas.E mais nessa edição: o que é p-value; como o Facebook foi alertado sobre a invasão ao Capitólio; e o que você precisa saber sobre a Lei de Goodhart's. Vamos lá?

O Medium do Data Hackers é uma publicação que recebe, em média, mais de mil visitantes todos os dias e mais de 50 mil visualizações todos os meses. Que tal você expor seu trabalho com a gente, sem ter que pagar nada por isso?

"Mas, Paulo, eu não sei sobre o que escrever." Não tem problema. Nós te ajudamos nisso! Na semana passada divulgamos a

, onde nós sugerimos temas e posts que você poderá escrever para a comunidade, e que serão divulgados aqui na newsletter.

e, caso encontre um assunto que seja do seu interesse, basta começar a escrever.

!

ATENÇÃO¹

: estamos com um novo e-mail para onde você deve enviar os posts. Caso não tenha recebido um retorno na sua submissão, envie ela novamente para o e-mail

.

ATENÇÃO²

: você não precisa escrever apenas sobre assuntos que estão na planilha.

Você pode escrever sobre qualquer assunto, desde que esteja relacionado ao mundo de dados

.

Desde o seu lançamento, o GPT-3 (modelo criado pela OpenAI que é capaz de gerar textos de alta consistência) tem gerado diferentes tipos de discussões, aplicações e opiniões sobre seu funcionamento. Recentemente,

que mostra que o GPT-3 possui um viés muito grande quando recebe a palavra "Muslim" e é pedido para completar o texto. O resultado

.

Um ponto interessante levantado no post está o fato da OpenAI saber desse viés quando criou o modelo, mas mesmo assim não só lançou ele

. (em Inglês)

Em uma reportagem do The Wall Street Journal, eles divulgaram que Data Scientists do Facebook já haviam alertado eles cinco meses antes da invasão ao Capitólio. Segundo o relatório, eles identificaram que grupos radicais estavam com comportamentos estranhos, como disseminação de fake news e até apelo ao uso de violência como forma de manifestação. (em Português)

 

No primeiro post que surgiu da nossa planilha de

, o Data Hacker

ensina o que é

list comprehension

e como você pode criar iterações mais limpas e legíveis no Python. Confira! (em Português)

Também como resultado da nossa planilha, o Data Hacker

criou esse post ensinando como funciona o p-valor, importante conceito da estatística na validação de hipóteses. (em Português)

O Spacy é uma das bibliotecas mais poderosas para NLP em Python, que possui, inclusive, um bom suporte a Português do Brasil. Essa semana eles anunciaram a versão 3.0 do Spacy, que veio com melhorias muito legais, mas a que mais me chamou a atenção foi o retreino dos modelos pré-treinados e a adição de um novo e maior modelo para Português Brasileiro, com foco no aumento da acurácia. (em Inglês)

Você já ouviu falar na Goodhart Law? Talvez você já tenha ouvido a frase "Quando uma medida se torna uma meta, ela deixa de ser uma boa medida". Basicamente, ela mostra como uma métrica mal definida é capaz de arruinar negócios, produtos e até performance de times. Esse post mostra as diferentes formas em que a Lei de Goodhart aparece, e como você pode evitar cair nesse perigoso abismo das métricas mal definidas. (em Inglês)

VAGAS DA SEMANA

  • Ensino superior completo;

  • Python ou R;

  • SQL;

  • Experiência com engenharia de software

  • Experiência em análise de grandes volumes de dados

  • Experiência com Machine Learning;

  • Python;

  • SQL;

  • Conhecimento em cloud (Azure e AWS)

Curso de Deep Learning com PyTorch (Gratuito)Essa foi uma sugestão do nosso Community Manager Marlesson Santana, no Slack do Data Hackers. É um curso de Deep Learning criado pela Universidade de Nova York, com uma abordagem prática usando PyTorch, mas sem deixar a teoria de lado. O melhor de tudo: o curso está gratuito no Youtube. (em Inglês)

Dica do Data Hacker Rodrigo Teoria no nosso Slack

Qual a chance de duas ou mais pessoas numa sala fazerem aniversário no mesmo dia?Você já ouviu falar do Paradoxo do Aniversário? Basicamente, ele diz que em um grupo de 23 pessoas escolhidas aleatoriamente, há uma chance de mais de 50% de que duas pessoas fazem aniversário no mesmo dia (em um grupo de 57 pessoas, a probabilidade é maior que 99%). O Data Hacker Arthur Rocha fez esse experimento bem legal mostrando de forma visual como ele funciona. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS [100% ONLINE]

30 de Março a 01 de Abril de 2021 -  Evento Pago e 100% Online

17 a 19 de Agosto de 2021 -  Evento Pago e 100% Online