- Data Hackers Newsletter
- Posts
- O cartel de datasets que está dominando Machine Learning
O cartel de datasets que está dominando Machine Learning
As ferramentas e plataformas mais usadas em 2021 Como mais de 600 jornalistas analisaram dados em um dos maiores escândalos do mundo
Fala, Data Hackers, sejam bem-vindos a mais um ano de Data Hackers! Esperamos que você tenha um 2022 melhor que 2021 e, como sempre, conte com a comunidade nesse período. E já começamos nosso ano com assuntos polêmicos, trazendo como destaque um estudo feito pelo Google Research e a University of California que mostra como um pequeno número de datasets está dominando o setor de AI. Além disso, um rápido follow-up para os ganhadores dos adesivos, nossa próxima live, e muito mais conteúdos, como:
Recado Importante: adesivos e próximo sorteio!
Pessoal, essa semana nós recebemos nossos lotes de adesivos e nos próximos dias estaremos enviando para os ganhadores do sorteio. Tivemos um pequeno atraso no recebimento do fornecedor, mas agora eles já estão com a gente (detalhe: eles são lindos).Na próxima newsletter vamos anunciar a data da nossa próxima live, onde faremos mais um sorteio. Que assunto deveríamos conversar na live? Responda esse email com sua sugestão!Foto dos adesivos:
Um paper lançado pelo Google Research e a University of California mostrou que um pequeno número de datasets usado como benchmarking está dominando de forma crescente o setor de AI. Essas organizações geralmente são instituições do ocidente, e há motivos para preocupações éticas, práticas e até políticas em utilizar tais datasets como opção padrão ou única em estudos. (em Inglês)
2021 acabou, mas vale muito a pena a gente saber quais foram as ferramentas e plataformas mais utilizadas nesse ano que passou, afinal, muitas dessas ferramentas irão evoluir e se consolidar no mercado. Esse post de Matt Turck (que se tornou tradição ao longo dos anos) traz uma visão completa sobre esse panorama. (em Inglês)
Lembra do Pandora Papers? Foi um trabalho de esforço hercúleo entre mais de 600 jornalistas que expôs negócios secretos de elites e lideres mundiais. Foram mais de 11 milhões de documentos vazados em quase 3 terabytes de dados. Você consegue imaginar como foi analisar e tratar essa quantidade imensa de dados?
mostra mais sobre os métodos e tecnologias usadas por eles. (em Inglês)
sem entrar em uma lista de espera. Pra quem nunca ouviu falar, o GPT-3 trata-se de um modelo de linguagem capaz de gerar textos com alta precisão e coerência. Uma das últimas novidades do serviço é que agora os clientes poderão criar customizações do GPT-3 baseadas nas suas necessidades. O que achou da novidade? (em Português)
O pessoal do
criou esse post bem legal explicando sobre o que é uma matriz de confusão: uma das tabelas mais usadas para avaliar o resultado de modelos de Machine Learning. Eles também fizeram um vídeo explicando esse conteúdo, que você pode conferir
(em Português)
Um novo projeto de lei para regulamentar Inteligência Artificial foi aprovado na Câmara dos Deputados e aguarda apreciação do Senado Federal. Especialistas, porém, não gostaram do pouco tempo para discussões até agora. Além disso, eles dizem que a legislação não é suficientemente profunda e esperam que a outra casa do Poder Legislativo melhore essas questões. (Em Português)
VAGAS DA SEMANA
Python
Git
SQL
ETL
Boa comunicação
5+ anos de exp.
EXP criando modelos de ML
EXP em gestão de time
Familiaridade com Estatística
Boa comunicação
A ciência e alquimia de Machine Learning em jogosQuem me conhece sabe o quanto eu adoro jogos e sempre que tenho a chance de ligar eles com dados eu compartilho aqui no DH. Dessa vez eu trouxe uma palestra do Yves Jacquier explicando a estratégia da Ubisoft em integrar Machine Learning em jogos como Assassin's Creed Odyssey, Rainbow Six: Siege. (em Inglês)
Dica do Data Hacker Armando Barbosa no nosso
.
O que especialistas estão prevendo para 2022 em questões como economia e tecnologia? Esse trabalho incrível do Visual Capitalist explica algumas dessas previsões. Confira! (em Inglês) (P.S.: podemos oficializar esse tipo de gráfico como heatmap de bingo?)